对《Pointer-Generator Networks》中的Coverage机制的小改进

该博客探讨了在Seq2seq模型中如何改进《Pointer-Generator Networks》中的Coverage机制,以减少重复生成文字的问题。通过修改coverage计算方式和covloss函数,实验结果显示改进后的机制在rouge指标上有所提升,有助于解决摘要生成时的语句重复问题。
摘要由CSDN通过智能技术生成

1 What

在Seq2seq模型中,重复生成文字是常见的问题。《Pointer-Generator Networks》作者在《Modeling Coverage for Neural Machine Translation》提出的Coverage机制的基础上,简化了Coverage机制并融合到其模型中,在decoder的每个时间步维护一个coverage向量,该向量由时刻 t 之前的attention weight向量累加获得。
c t = ∑ t ′ = 0 t − 1 a t ′ c_t =\sum_{t\rq=0}^{t-1}a^{t\rq} ct=t=0t1at
这个coverage向量表示过往时刻的所有注意力机制的累加,其告诉模型,encoder的输入中哪些部分是已经被注意力关注过的,哪些没有。
为了使得模型不过多地关注已经关注过的区域,所以将coverge向量作为下一步的注意力的构成部分,这样下一步生成的注意力分布就会有意识地减少已经关注过的区域的概率。
e i t = v T t a n h ( W h h i + W s s t + w c c i t + b a t t n ) e^ t_ i = v^T tanh(W_hh_i +W_ss_t +w_c c^t_i +b_{attn}) eit=vTtanh(Wh

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值