摘要，Pointer-Generator Networks

最新推荐文章于 2022-11-20 16:05:29 发布

lcomecon

最新推荐文章于 2022-11-20 16:05:29 发布

阅读量218

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/lcomecon/article/details/107052875

版权

16 篇文章 0 订阅

订阅专栏

使用的模型是seq2seq + attention，也就是前面有提到的做翻译的模型，之前写的有些问题，也是由于自己不太理解吧；现在结合这个代码，再来重新梳理一遍。
baseline model（不加attention 和 Pointer-Generator Networks）介绍：

encoder是双向单层的LSTM，将数据输入到网络之后，可以得到encoder_out（batch_size, seq_len, 2 * enc_hidden_size），encoder_hidden（元组（h，c），每个size都是（2, batch_size, enc_hidden_size））。encoder_hidden应用于后续decoder_input。
decoder是单向单层的LSTM，起始的hidden使用encoder_hidden（需要进行size的转化）。

$e_i^t=V_a^T\tanh(W_hh_i+W_ss_t+b);$ $\quad$ $h_i$ 表示encoder_state, 使用encoder_out， $s_t$ 表示decoder_hidden，使用decoder_hidden。计算后size为（batch_size, seq_len)
$a^t=softmax(e^t);$ $\quad a_t$ 表示每一个输入的注意力分数，size为（batch_size, seq_len)
cv = $\sum\alpha_{i}h_i$ 表示context_vector向量计算后的size为 (batch_size, 1, enc_hidden_size)
$\hat{y} =softmax(tanh[s_t;cv])$ 通过映射得到最终的输出，计算后的size为（batch_size, vocab_size)。

计算一个 $p_{gen}$ 的值，用于计算vocab与句中oov词语的分布概率， $p_{gen}$ 的计算公式如下：
$p_{gen}=\sigma(W_{h^*}h^*+W_ss_t+W_xx_t+b);$ $\quad$ $h^*$ 对应上一步提到的cv， $s_t$ 对应为decoder_output，x_t对应为decoder_input，此时计算的size为（batch_size, 1)
利用下面的公式求对应的输出：
$y=p_{gen} \hat {y} + (1 - p_{gen})\sum_{i:w_i=w}\alpha; \quad$ $\alpha$ 表示上面提到的，即注意力分数。