NLP复述模型

方案一:seq2seq端到端生成

数据来源:相似句数据:https://github.com/zejunwang1/CSTS
效果:2层transformer, 生成bleu=37.7, 缺点:语句不通顺
示例:

句子不通顺,句子片段不通:
source: = 我跟您说的是这么一件事。
target = 对了,我有话要跟您说。
predict = 我您, 我说 什要跟您说。

source: = 不,最好把这些东西扔到什么地方去。
target = 不,最好是出去一趟,把这些东西一齐扔掉。
predict = 不,最好把把卖什, 把这些东西扔定扔。

source: = 我有这样一件事,西蒙松重又说,我知道您跟玛丝洛娃的关系,所以我认为有责任向您说明我对她的态度。
target = 我要谈的是这样一件事,西蒙松又讲起来,我知道您跟卡捷琳娜米海洛芙娜的关系,所以我认为我有责任向您说明我对她的态度,那么究竟是什么事呢?
predict = 我有是到是这样一件事,西蒙松又说 得, 我知道您跟玛秋琳娜伊海洛娃娜的关系, 所以我认为我对责任向您说明我对她的态度。我您竟是什么人 呢?

source: = 另一首歌曲“Vopreki”(“尽管”)由Konstantin Meladze编写,由俄罗斯明星Valery Meladze执导。
target = 另一首歌“Vopreki”(“尽管”)是由Konstantin Meladze写的。这首歌由俄罗斯明星瓦列里梅拉兹执行。
predict = 另一首歌“Vopreki”(“Me”) 由由Konstantin Meladze撰的,这首歌是俄罗斯明星V列里梅拉兹执行。


source: = Jim Gray(HBO)和Max Kellerman(Showtime)报道了帕奎奥和梅威瑟的更衣室。
target = 吉姆格雷(HBO)和马克斯凯勒曼(Showtime)分别覆盖了帕奎奥和梅威瑟的更衣室。
predict = J姆格雷(HBH) 和Ma西米凯瑟曼·Showtime)的别覆盖了帕奎奥和梅威瑟的更衣室。

source: = 在由监狱到绞架的路上,有着一条由宪兵排成的走廊。
target = 在由监狱到绞架的路上,由两排宪兵排成一条走廊。
predict = 在由监狱到绞架的路上,有宪条成一兵组成条走廊。


地点名称变动:
source: = 当时市政当局也从萨德伯里区转移到马尼图林区。
target = 当时市政当局也从萨德伯里区搬到了马尼图林区。
predict = 当时市政当局也从萨德伯里区搬到马马尼图大法官。

source: = 矿山的村庄和Stambaugh市与铁河城合并,从2000年7月1日起生效。
target = 自2000年7月1日起,Iron River村和Stambaugh市与Mineral Hills市合并。
predict = 从2000年7月1日起,Iron River村和Stbabaugh市的Mine的l Hill 河市合并。

缺少句子成分:
source: = 尽管普若斯小姐否认她自己有想象力,可是在她反复说着走来走去这个字眼儿的时候,却表现出对于不断地遭受某种忧思困扰之苦有一种敏锐的感觉,这证明她是具有想象力这种东西的。
target = 尽管普罗斯小姐不承认她有想像力,但在她反复说走来走去一句时,流露出她觉察到老受一种忧思折磨的痛苦,这证明她有想像力。
predict = 尽管普罗斯小姐不承认她有一个, 可是她反复说着来走去这个字话, 却露出对不断得受一在的种悲虑苦苦的感觉, 这证明她是着。


正常::
source: = 她问这句话的时候打了一个神经质的寒颤。
target = 她问这话的时候打了一个神经质的寒颤。
predict = 她问这句的时候打了一个神经质的寒颤。


方案二:LASERYTAGGER模型

https://github.com/tongchangD/text_data_enhancement_with_LaserTagger
模型介绍:
使用编辑距离的方式,通过seq分类任务达到效果
缺点:产生的样本与原样本很近似。

运行步骤1:phrase_vocabulary_optimization.py
生成需要keep,delete的token,以及合并add的token phrase,根据频率,生成label_map
KEEP|what is, 代表在当前位置,前面添加what is, 并且保存当前位置的数据
DELETE|what is,代表在当前位置,前面添加what is, 并且删除当前位置的数据

运行步骤2:得到训练数据的tfrecord: preprocess_main.py
基本上,label都是根据增删这几个操作得到label, 
当无法得到label的时候,如果允许SWAP,才会使用SWAP标签
注意:label长度与输入长度一致、

运行步骤3:run_lasertagger.py 底层为bert, 再加上decoder层。得到结果:

示例:

source  prediction      target
谁有狂三这张高清的      谁有狂三这张高清        这张高清图,谁有
英雄联盟什么英雄最好    英雄联盟用什么英雄最好  英雄联盟最好英雄是什么
这是什么意思,被蹭网吗  这是什么意思蹭网        我也是醉了,这是什么意思
现在有什么动画片好看呢?        现在有什么动画片好看    现在有什么好看的动画片吗?
请问晶达电子厂现在的工资待遇怎么样要求有哪些    晶达电子厂现在的工资待遇怎么样  三星电子厂工资待遇怎么样啊
文章真的爱姚笛吗        文章是真的爱姚笛吗      姚笛真的被文章干了吗
送自己做的闺蜜什么生日礼物好    闺蜜什么生日礼物好      送闺蜜什么生日礼物好
近期上映的电影  近期有上映的电影        近期上映的电影有哪些
求英雄联盟大神带?      求英雄联盟大神  英雄联盟,求大神带~
如加上什么部首  加上什么部首    给东加上部首是什么字?
杭州哪里好玩    杭州哪里最好玩  杭州哪里好玩点
这是什么乌龟值钱吗      这是什么乌龟值钱        这是什么乌龟!值钱嘛?
心各有所属是什么意思?  心各有所属什么意思      心有所属是什么意思?
什么东西越热爬得越高    什么东西越热爬的越高    什么东西越热爬得很高
世界杯哪位球员进球最多  世界杯那位球员进球最多  世界杯单界进球最多是哪位球员
韭菜多吃什么好处        吃韭菜吃什么好处        多吃韭菜有什么好处
云赚钱怎么样    赚钱怎么样      怎么才能赚钱
何炅结婚了嘛    何炅结婚        何炅结婚了么
长的清新是什么意思      清新是什么意思  小清新的意思是什么
我们可以结婚了吗?      我们能结婚了吗?        在熙结婚了吗?
想买男人酒补肾壮阳酒哪里有啊    男人酒补肾壮阳酒哪里有  哪里有男人酒补肾壮阳酒
淘宝上怎么用信用卡分期付款      淘宝怎么用信用卡分期付款        淘宝怎么分期付款,没有信用卡
最近有没有什么好看的韩剧        最近有什么好看的韩剧    最近有什么好看的韩剧
《校花的贴身高手》中的林逸      校花的贴身高手  校花贴身高手
叔叔是什么人    叔叔是什么      我是叔叔的什么人
这姑娘漂亮不    这个姑娘漂亮不  我姑娘漂亮吧
在淘宝网买手机可靠吗?  淘宝网买手机可靠吗      在淘宝网上买手机可靠吗?
山楂干怎么吃好吃?      山楂怎么吃才好吃        山楂怎么做好吃
时间都去哪怕了歌谱      时间都去哪怕歌谱        时间煮雨歌谱
苏州哪里能买到这个衣服  苏州哪里买到这个衣服    苏州哪里有买大号衣服的?
最好玩的手机网游        好玩的手机网游  好玩的手机网游
石榴是什么时候成熟的?  石榴什么时候成熟的      成熟的石榴像什么?
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值