从Seq2seq到Pointer-Generator Networks

最新推荐文章于 2023-03-17 10:30:17 发布

TENLIU2099

最新推荐文章于 2023-03-17 10:30:17 发布

阅读量1.4k

点赞数 2

文章标签：指针网络 poniter-network Pointer-Generator Networks seq2seq 自动摘要

本文链接：https://blog.csdn.net/TENLIU2099/article/details/90579191

版权

本文详细介绍了从seq2seq模型到Pointer-Generator Networks的发展，包括注意力机制、指针网络和pointer-generator network的诞生背景、工作原理以及在自动摘要等任务中的应用。重点讨论了如何解决seq2seq模型中的问题，如固定长度输出、重复生成和未登录词处理。并展示了pointer-generator network在词语缩写生成和文本标题生成的效果。

摘要由CSDN通过智能技术生成

文本介绍 pointer-network 和 pointer-generator network。
从 seq2seq开始讲起，到注意力机制，再到pointer-network再到pointer-generator network，最后列出几个，指针生成网络的简单应用效果。
（好长时间没更了，期间搭过一个个人博客，域名就是tenliu.top，后来种种原因，域名和服务器都没有续费~~）

1 seq2seq

1.1 为什么诞生seq2seq

我们知道RNN单元，输入输出的长度是一样的。那么在序列问题中，输入和输出的序列长度不同（这类实际问题更多，机器翻译、文本摘要、阅读理解、语言识别····）。网络结构该是什么样的呢？
这就是seq2seq问题，这时候就要 encoder-decoder结构了。

1.2 基本概述

我们先用一个LSTM作为 encoder编码网络，输入通过编码网络得到一个上下文向量c，
这个c有很多种，最简单的就是把编码网络LSTM的最后一个隐藏状态赋值给c，也可以把LSTM的所有隐藏状态复制给c，也可以把隐藏状态做些变换之后在赋值给c，

然后再来一个解码网络，也是LSTM。把编码网络的c作为输入，目标作为输出。这样就可以实现输入和输出长度不同的学习啦。

c可以作为解码网络的初始状态输入；

也有做法是把c作为解码网络的每一步的输入：

seq2seq生成模型，主要的思想就是把问题看做一个条件语言模型，

即在已知输入序列和前序生成序列的条件下，最大化下一目标的概率，最终希望得到整个输出序列的生成出现的概率最大。（和语言模型不同在于，多列一个已知的输入序列这个条件，所有我们说是条件语言模型）

$\prod_{t=1}^{T}P(y_t|y_{1:t-1},X)$

或者我们为了便于计算，取log，把相乘变成相加：

$\sum_{t=1}^{T}P(y_t|y_{1:t-1},X)$

其中

X、Y分别表示输入输出序列
$T$ 表示输出序列的时间序列大小
$y_{1:t-1}$ 表示输出序列的前t-1个时间点对应的输出。在训练的时候这个是已知的，但是在测试阶段，就是未知的了，需要从开始位置探索

这个公式就是我们的目标，不论模型如何变化，这个目标不变。

1.3 训练和预测

那么训练阶段，使用的是标注数据，在每一步decode阶段，如第t步decode，我们知道输入X，和之前 $t - 1$ 的输出，来预测当前时刻的输出。这个训练过程是”局部“的，完成训练之后，我们得到的也是这样的条件概率分布，在已知输入X，输出的前t个时刻的条件下，当前t时刻输出为 $y_t$ 的概率。

那么在测试和预测阶段呢？我们希望得到的是最大概率的是输出序列。(tenliu)
但是现实是，decode的第一步，我们知道输入X，也知道 $y_0$ 这个初始值，我们通过训练好的模型知道 $t = 1$ 的概率分布，如何采样输出 $y_1$ ？
1、贪心算法吗
2、随机采样
3、集束搜索
…
（这里不是这次的重点）