【论文阅读】 Reinforced Video Captioning with Entailment Rewards

最新推荐文章于 2024-06-25 09:43:26 发布

CC‘s World

最新推荐文章于 2024-06-25 09:43:26 发布

阅读量301

点赞数

分类专栏：论文阅读文章标签：视频描述生成文本蕴含强化学习策略梯度

本文链接：https://blog.csdn.net/qq_36643449/article/details/106124097

版权

论文阅读专栏收录该内容

4 篇文章 1 订阅

订阅专栏

这篇论文主要有两个亮点：

以往的seq2seq模型在训练时都是经过word-level的交叉熵损失优化的，该损失与最终评估任务的sentence-level的度量没有很好的相关性；并且，以往的模型会遭受到曝光偏差(因为文本生成在训练和推断时的不一致造成的。不一致体现在推断和训练时使用的输入不同，在训练时每一个词输入都来自真实样本，但是在推断时当前输入用的却是上一个词的输出)。所以通过sequence-level的训练以及策略梯度的方法，就可以直接优化基于任务的sentence-level的度量；另外，通过使用交叉熵损失和基于奖励的损失的混合损失，也可以解决曝光偏差的问题，同时有利于提高输出的流畅性。
以往的基于强化学习的文本生成任务都是将词组匹配的度量(例如CIDEr和BLEU)作为奖励函数，这些度量使用的是生成的caption与ground truth之间的无向n-gram匹配，因此无法捕获定向逻辑正确性，对于那些即使只包含单个很重要的错误单词的caption，仍然能得到很高的评分。所以使用蕴含奖励强化机制，它将基于词组匹配的度量(例如CIDEr)修正为句子的逻辑匹配，避免了逻辑矛盾。

【强化学习(策略梯度)】
为了直接优化sentence-level的测试指标，因此使用策略梯度 $p_{\theta}$ ，其中 ${\theta}$ 是模型参数。基线模型作为一个agent与环境(video和caption)进行交互。在每一个时间步，agent生成一个单词，当agent生成序列结束标记后，会得到一个reward。目标就是最大程度地减少负面奖励函数的期望，即： $L(\theta)=-\mathbb{E}_{w^{s} \sim p_{\theta}}\left[r\left(w^{s}\right)\right]$ 。其中， $w^{s}$ 是从模型中采样得到的单词序列。基于奖励的损失函数的梯度为： $\nabla_{\theta} L(\theta)=-\mathbb{E}_{w^{s} \sim p_{\theta}}\left[r\left(w^{s}\right) \cdot \nabla_{\theta} \log p_{\theta}\left(w^{s}\right)\right]$ 。

【混合损失函数】
基于强化的损失无法保证生成caption的可读性和流利性，所以使用强化学习损失和交叉熵损失的混合损失函数，即 $L_{\mathrm{MIXED}}=(1-\gamma) L_{\mathrm{XE}}+\gamma L_{\mathrm{RL}}$ 。 $\gamma$ 是用于平衡两种损失的调整参数。为了实现退火和更快地收敛，从优化的交叉熵损失基线模型开始，然后着手优化上述混合损失函数。

【奖励函数】
CIDEr、BLEU、METEOR都是基于生成的caption样本和真实的参考之间的匹配进行打分。CIDEr基于多个reference captions的共识度量，与METEOR、ROUGE和BLEU系相比，与人类评估的相关性更高。并且使用更多的人类参考，CIDEr会表现的更好。
尽管CIDEr作为奖励的表现优于其它指标，但所有这些指标仍基于生成的caption和ground truth之间的无向n-gram匹配分数，如果在生成的caption中出现否定或错误的操作/对象，依然能得到很高的分数。
为了解决上述问题，通过使用蕴含得分来纠正短语匹配度量，以确保生成的caption在逻辑上是ground truth蕴含的。为了得到精确的蕴含得分，采用了Parikh等人的模型，该模型输出了生成的caption是否被ground truth作为前提而蕴含的概率。CIDEnt被定义为：
CIDEnt $=\left\{\begin{array}{ll}\mathrm{CIDEr}-\lambda, & \text { if } \mathrm{Ent}<\beta \\ \mathrm{CIDEr}, & \text { otherwise }\end{array}\right.$
这意味着如果蕴含分数非常低，我们将会通过一个惩罚因子 $\lambda$ 来惩罚评测得分。这种定义方式可以确保仅在蕴含分数也很高的情况下信任基于CIDEr的奖励。

参考资料：Reinforced Video Captioning with Entailment Rewards

CC‘s World

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】 Reinforced Video Captioning with Entailment Rewards

这篇论文主要有两个亮点：以往的seq2seq模型在训练时都是经过word-level的交叉熵损失优化的，该损失与最终评估任务的sentence-level的度量没有很好的相关性；并且，以往的模型会遭受到曝光偏差(因为文本生成在训练和推断时的不一致造成的。不一致体现在推断和训练时使用的输入不同，在训练时每一个词输入都来自真实样本，但是在推断时当前输入用的却是上一个词的输出)。所以通过sequence-level的训练以及策略梯度的方法，就可以直接优化基于任务的sentence-level的度量；另外，通过
复制链接

扫一扫

专栏目录