文本生成论文阅读 Get To The Point: Summarization with Pointer-Generator Networks

今天学累了,读论文冷静下


前言

本篇论文主要是用了copy机制,从输入中拷贝结果到输出,缓解OOV问题。本文提出一种新颖的架构:使用两种方式增强标准的seq2seq注意力模型。一,使用混合指针生成网络,利用指针从原文精确地复制单词,同时保留生成器产生新单词的能力。二,使用覆盖机制跟踪哪些单词已经被摘取,避免生成重复文本。


提示:以下是本篇文章正文内容,下面案例可供参考

一、ovv问题是什么?

在encoder-decoder结构中,需要通过固定的词典对平行语料进行表示,为提高效率,常减少词表的大小。同时还希望文本长度尽可能的短,因为文本长度的增加会降低效率并增加神经模型传递信息所需的距离(LSTM),文本越长信息丢失的可能性越大。这就导致了很多未登录词(OOV)和罕见词(Rare Words)。另外,新词每时每刻都可能被创造出来,这些新词显然也不在词汇表中,也是属于未登录词的一种。

二、拟解决的问题

1.ovv问题
2.生成重复词
3.难以准确复述原文细节

三、实验结果

模型十分友好,将的模型应用于CNN/Daily Mail摘要任务,比当前抽象的最新技术至少要多2个ROUGE
ROUGE是Recall-Oriented Understudy for Gisting Evaluation的简写,在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,是评估自动文摘和机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较,统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的相似度。(简言之,通过比较机器生成的结果和人工生成的结果得出分值。通过多专家人工摘要的对比,提高评价系统的稳定性和健壮性。准确路在这里插入图片描述

四、使用到的技术以及模型

在Attention机制出现之前,我们主要还是依靠RNN来解决编解码的问题。要读懂这篇论文主要用到的东西就是Bahdanau Attention机制以及seqtoseq。 Attention机制,俗点讲,就是让解码部分可以选择性地使用编码部分的信息,注意力本质上就是一个经过softmax层输出的向量。Decoder中每一时刻的输出是由好几个变量共同决定的,其中包含了Encoder中每一时刻的隐藏状态向量(hn),和上一时刻的输出 y t-1 ,以及当前时刻Decoder中的隐藏状态向量 st 。传统 RNN Encoder-Decoder 中t时刻的输出 。可以发现,我们不再使用固定的语义编码向量 ,而是使用一个动态的语义编码向量 ,它是由Encoder中每一时刻的隐藏状态向量计算得到 。在这里插入图片描述图片来源:知乎【论文解读】Bahdanau Attention

在这里插入图片描述
在这里插入图片描述
指针生成网络是基准网络与指针网络的混合,它允许通过指针复制单词,同时可以从固定词汇表生成单词一个词不出现在常规的单词表上时 𝑃𝑣𝑜𝑐𝑎𝑏(𝑤)为0,当该词不出现在源文档中∑𝑖:𝑤𝑖=𝑤为0,至此,使用复制机制解决了OOV问题。
在这里插入图片描述

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值