论文阅读:Get to the point: summarization with pointer-generator networks

简介:

       基于注意力机制的Seq2Seq模型,使用每一步解码的隐层状态与编码器的隐层状态计算权重,最终得到context向量,利用context向量和解码器隐层状态计算输出概率。这篇文章主要试图解决问题1、无法准确复述原文细节,无法处理不在词表中的词(oov问题) 2、生成的在摘要中存在重复的片段

Pointer-generator network模型结构图:

主要贡献点:

       一、Copy mechanism:

          在解码的每一步计算拷贝或生成的概率,因为词表是固定的,该机制可以选择从原文中拷贝词语到摘要中,有效的缓解了未登录词(OOV)的问题;如下图公式(8),ht∗是语境向量,st是decoder 隐层,xt是decoder输入embedding,σ是sigmoid函数,动态的计算生成概率;公式(9)再由这个概率计算最后生成的词是来词表还是encoder输入,表示对于词w,原文中所有w的attention和;

                                        

                                      

      2、 Coverage mechanism:

          需要在解码的每一步考虑之前步的attention权重,结合coverage损失, 避免继续考虑已经获得高权重的部分。该机制可以有效缓解生成重复的问题;如公式(10),当在t时刻时,coverage向量为前t-1时刻,每一时刻对encoder输出概率值对应词的求和(不是seq求和);

                                                    

           如公式(11),也对求attention时进行调整,输入了coverage 信息;

                                                  

           如公式(12),因为目的是减少生成重复词,所以是对累计注意力和当前注意力的重复部分进行惩罚,避免注意力机制一直关注同一个位置;为什么是取最小,因为coverage loss最后要加入总loss中,我们训练的目标也是不就是为了loss最小;

                                                         

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值