论文阅读笔记-Incorporating Copying Mechanism in Sequence-to-Sequence Learning

墨痕_777

于 2024-10-11 08:10:36 发布

阅读量493

点赞数 6

文章标签： python

本文链接：https://blog.csdn.net/mohen_777/article/details/140605281

版权

前言

最近看了一篇ACL2021的Dialog Policy Learning模型的文章，阅读笔记如下：
阅读笔记
模型结构里面使用到了一个Copying Mechanism的技巧，因此比较感兴趣的翻了这篇原文阅读。本篇论文提出了CopyNet模型，能够自动的，决定下一步的预测是生成模式还是复制模式。生成模式就是我们常说的注意力机制，复制模式就是这篇文章的一个创新点。复制模式其实不难理解，从我们人类的经验视角来看，在阅读文章或者做一些摘要的时候，除了自己会生成一些概括语句之外，还会从文章当中去摘抄一些核心句子。因此我们在生成句子时，可以选择性的复制某些关键词，比如如下这样：
在这里插入图片描述
如上述的一些人名等OOV_token，如果单单使用传统的Attention是无法处理的，所以需要通过某种手段来解决。Copying Mechanism从一定程度上解决这个问题，用原Paper的说法，模型只需要更少的理解，就能够确保文字的保真度，对于摘要，对话系统等来说，能够提高文字的流畅度和准确率，并且也是端到端进行训练。

模型细节

模型依旧是Encoder-Decoder的结构，不过是在Decoder中，融入了Copying Mechanism，首先看一下模型的整体结构，如下图：
在这里插入图片描述
模型的Encoder部分就是使用了Bi-RNN，编码得到的hidden state 统一用 $M$ 表示（上图右侧的 $M$ ），下面我们重点来讲一下Decoder。

Decoder

Decoder也是使用RNN来获取 $M$ 的信息从而预测目标序列，只不过并不是直接解码，而是做了如下三个改动：

生成模式&复制模式

设有一个词表 $V=\{v_1,v_2,...,v_n\}$ ，使用UNK表示OOV，输入表示为 $X=\{x_1,x_2,...,x_{T_s}\}$ 。因为 $X$ 当中包含一些词汇表中没有的单词，所以使用copy mode，可以输出部分OOV单词，这样就使得我们整个词表为 $V\cup UNK\cup X$ 。在第 $t$ 步解码的state 表示为 $s_t$ ， $y_t$ 表示生成目标词概率，则两个模式的混合概率模型表示为：
$p(y_t|s_t,y_{t-1},c_t,M)=p(y_t,g|s_t,y_{t-1},c_t,M)+p(y_t,c|s_t,y_{t-1},c_t,M)$
其中， $g$ 表示生成模式， $c$ 表示复制模式，则两个模式的概率模型分别为：