对《Pointer-Generator Networks》中的Coverage机制的小改进

最新推荐文章于 2021-09-10 17:02:03 发布

小眯睁眼

最新推荐文章于 2021-09-10 17:02:03 发布

阅读量1.2k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理神经网络深度学习

本文链接：https://blog.csdn.net/sinat_39589569/article/details/108061302

版权

该博客探讨了在Seq2seq模型中如何改进《Pointer-Generator Networks》中的Coverage机制，以减少重复生成文字的问题。通过修改coverage计算方式和covloss函数，实验结果显示改进后的机制在rouge指标上有所提升，有助于解决摘要生成时的语句重复问题。

摘要由CSDN通过智能技术生成

1 What

在Seq2seq模型中，重复生成文字是常见的问题。《Pointer-Generator Networks》作者在《Modeling Coverage for Neural Machine Translation》提出的Coverage机制的基础上，简化了Coverage机制并融合到其模型中，在decoder的每个时间步维护一个coverage向量，该向量由时刻 t 之前的attention weight向量累加获得。
$c_t =\sum_{t\rq=0}^{t-1}a^{t\rq}$
这个coverage向量表示过往时刻的所有注意力机制的累加，其告诉模型，encoder的输入中哪些部分是已经被注意力关注过的，哪些没有。
为了使得模型不过多地关注已经关注过的区域，所以将coverge向量作为下一步的注意力的构成部分，这样下一步生成的注意力分布就会有意识地减少已经关注过的区域的概率。
$e^ t_ i = v^T tanh(W_hh_i +W_ss_t +w_c c^t_i +b_{attn})$