指针生成网络（Pointer-Generator Networks）的实现

本文链接：https://blog.csdn.net/Chen_Meng_/article/details/103756716

指针生成网络的简介

指针生成网络(Pointer-Generator Networks)是一个基于seq2seq+attention的生成模型，相比于seq2seq+attention的生成模型，它能够在一定的程度上解决oov(out of vocab)的问题。

回顾seq2seq+attenion

这一篇博客有比较详述的解析

对于seq2seq+attention，再decoder的每一个时间步的词，都是从词表(一共 $\large v$ 个)中选择概率最高的一个作为预测结果。

下面概述seq2seq+attenion的过程

encoder的输入： $\large x=(x_{1},\cdots ,x_{T_{x}})$

decoder的输入: $\large y=(y_{1}, \ddots ,y_{T_{y}})$

(1) $\large h_{t} = LSTM_{enc}(E(x_{t}),h_{t-1})$ encoder在时间步 $\large t$ 上, $\large E(x_{t})$ 是第 $\large x_{t}$ 个词的词向量， $\large h_{t-1}$ 是 $\large t-1$ 时刻的隐层， $\large h_{t}$ 是 $\large t$ 时刻的隐层

(2) $\large s_{t}=LSTM_{dec}(E(\hat{y}_{t-1}),s_{t-1})$ decoder在时间步t上， $\large E(\hat{y}_{t-1})$ 是decoder在时间步 $\large t-1$ 上预测的词的词向量， $\large s_{t-1}$ 是 $\large t-1$ 时刻的隐层， $\large s_t$ 是当前时刻 $\large t$ 的隐状态输出。

(3) $c_{i}=\sum_{j=1}^{T_{x}}\alpha_{ij}h_{j}$ ， $c_{i}$ 是decoder时间步骤为 $i$ 时的词向量， $h_{j}$ 是encoder时间步为 $j$ 的隐层； $\alpha_{ij}$ 是 $h_{j}$ 的decoder时间步骤为 $i$ 时的权重。 $\small \alpha _{i} =\sum _{j=1}^{T_{x}}\alpha _{ij}=1$ 。

(4) $\small \alpha _{ij}=\frac{exp(e_{ij})}{\sum_{k=1}^{T_{x}}exp(e_{ik})}$ $h_{j}$ 在decoder时间步骤为 $i$ 时的权重

(5) $\small e_{ij}=score(s_{i},h_{j})$ , $\small s_{i}$ 分别与 $\small h_{j}$ 做运算,这里有多种计算方式，seq2seq+attention中有讲到。

(6) $\small \hat{s}_{t}=tanh(W_{c}[c_{t};s_{t}])$ 将context vec 和当前隐层的信息结合起来，得到 $\small \hat{s}_{t}$

(7) $\small p(y_{t}|y_{<t},x_{1:T_{x}})=softmax(W_{s}\hat{s}_{t})$ 得到在 $\small t$ 时刻的词的概率分布， $\small p(y_{t}|y_{<t},x_{1:T_{x}})\subset \mathbb{R}^{v}$

(8) $\small word_{t}=argmax(p(y_{t}|y_{<t},x_{1:T_{x}}))$ 从 $\small p(y_{t}|y_{<t},x_{1:T_{x}})$ 选取最大的一个值的索引，作为当前生成的词。

如上图的例子，输入Germany，目标生成beat，可以直观的看到，beat 的词分布(vocabulary distribution)由decoder的隐层和context vector共同得到，而context vector 是由 decoder当前输出和encoder每一个时间步的输出得到。

$\small e_{i}^{t}=V^{T}tanh(W_{h}h_{i}+W_{s}s_{t})\cdots \cdots \cdots \cdots \cdots \cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots (1)$

$\small e_{i}^{t}$ 是decoder时间步为 $\small t$ 时，对encoder时间步骤为 $\small i$ 的关注度， $\small s_{t}$ 是decoder时间步为 $\small t$ 的输出， $\small h_{i}$ 是encoder时间步为 $\small i$ 的输出。 $\small V$ ， $\small W_{h}$ ， $\small W_{s}$ 都是可以学习的参数。