seq2seq模型改进以及论文分享

最新推荐文章于 2024-04-12 09:51:29 发布

abril4416

最新推荐文章于 2024-04-12 09:51:29 发布

阅读量2.5k

点赞数

分类专栏： seq2seq模型文章标签：自然语言处理深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/abril4416/article/details/104950233

版权

传统seq2seq模型介绍

传统的seq2seq模型通常有以下两种：

encoder-decoder
引入attention的encoder-decoder模型

具体可参见论文：Show and Tell: A Neural Image Caption Generator和
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention。后者与前者的不同即使用注意力机制加入context向量，context由上一个时刻生成的隐层向量和image features作用产生。后续，基于attention的改进Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning引入注意力哨兵机制。注意力机制层面的修改，有很多的变式，模型不同之处的重点是怎么讲上个时刻隐层向量和图像向量相互作用。但是模型整体的训练并没有本质的改变。
前人模型的一个通病是exposure bias。在训练和测试的时候，模型获得的输入的分布是不同的。训练的时候是数据集的分布，而测试的时候是预测结果的分布。实际来讲，训练的时候，在decoder中输入的是训练集句子的单词，而测试的时候，decoder输入的是上个时刻预测的单词。这样分布的不同将会造成模型非常脆弱。

用采样改进exposure bias

考虑到上面提到的问题，Scheduled Sampling for Sequence Prediction withRecurrent Neural Networks提出了scheduled sampling 的方式，训练的时候以一定概率选择该句子对应ground-truth的词汇，同时以一定概率选择上个时刻预测的词汇。模型图可见下图：
SS模型图
使用ground-truth单词的概率是 $\epsilon$ ，而使用前一个预测单词的概率是 $1-\epsilon$ 。同时这里作者还提出了一个叫做curriculum learning的方法。即刚开始训练的时候更大概率选择ground-truth，在训练的后续阶段更高概率选择预测的单词。因为刚开始训练的时候，模型比较粗糙，预测不准确，如果一开始就大概率使用预测的单词，将会造成很难收敛。所以这里重新对每个epoch定义了一个 $\epsilon_i$ ：
$\epsilon_i = \frac{k}{k+e^{\frac{i}{k}}}$ 作者还给出了其他的计算公式，但是之后很多人都用这一个。
但encoder-decoder除了训练上面的问题，还存在评估的问题——训练和测试采用的评估方式不同。训练的时候通常采用交叉熵，而测试的时候通常使用BLUE等评估标准。

采用深度强化学习改进

MIXER模型的提出，将深度强化学习Reinforcement Learning (RL) 引进到seq2seq模型当中，Sequence Level Training with Recurrent Neural Networks。如果直接使用RL，词库非常大，因此将会造成action space非常大，从头开始训练将会非常难。作者提出了一个Mixed Incremental Cross-Entropy Reinforce (MIXER) 的方法，前期用交叉熵训练，后期引入RL训练。关键点在于：

最低0.47元/天解锁文章

abril4416

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
seq2seq模型改进以及论文分享

传统seq2seq模型介绍传统的seq2seq模型通常有以下两种：encoder-decoder引入attention的encoder-decoder模型具体可参见论文：Show and Tell: A Neural Image Caption Generator和Show, Attend and Tell: Neural Image Caption Generation with ...
复制链接

扫一扫