【论文阅读】 Reinforced Video Captioning with Entailment Rewards

这篇论文主要有两个亮点:

  1. 以往的seq2seq模型在训练时都是经过word-level的交叉熵损失优化的,该损失与最终评估任务的sentence-level的度量没有很好的相关性;并且,以往的模型会遭受到曝光偏差(因为文本生成在训练和推断时的不一致造成的。不一致体现在推断和训练时使用的输入不同,在训练时每一个词输入都来自真实样本,但是在推断时当前输入用的却是上一个词的输出)。所以通过sequence-level的训练以及策略梯度的方法,就可以直接优化基于任务的sentence-level的度量;另外,通过使用交叉熵损失和基于奖励的损失的混合损失,也可以解决曝光偏差的问题,同时有利于提高输出的流畅性。
  2. 以往的基于强化学习的文本生成任务都是将词组匹配的度量(例如CIDEr和BLEU)作为奖励函数,这些度量使用的是生成的caption与ground truth之间的无向n-gram匹配,因此无法捕获定向逻辑正确性,对于那些即使只包含单个很重要的错误单词的caption,仍然能得到很高的评分。所以使用蕴含奖励强化机制,它将基于词组匹配的度量(例如CIDEr)修正为句子的逻辑匹配,避免了逻辑矛盾。

【强化学习(策略梯度)】
为了直接优化sentence-level的测试指标,因此使用策略梯度 p θ p_{\theta} pθ,其中 θ {\theta} θ是模型参数。基线模型作为一个agent与环境(video和caption)进行交互。在每一个时间步,agent生成一个单词,当agent生成序列结束标记后,会得到一个reward。目标就是最大程度地减少负面奖励函数的期望,即: L ( θ ) = − E w s ∼ p θ [ r ( w s ) ] L(\theta)=-\mathbb{E}_{w^{s} \sim p_{\theta}}\left[r\left(w^{s}\right)\right] L(θ)=Ewspθ[r(ws)]。其中, w s w^{s} ws是从模型中采样得到的单词序列。基于奖励的损失函数的梯度为: ∇ θ L ( θ ) = − E w s ∼ p θ [ r ( w s ) ⋅ ∇ θ log ⁡ p θ ( w s ) ] \nabla_{\theta} L(\theta)=-\mathbb{E}_{w^{s} \sim p_{\theta}}\left[r\left(w^{s}\right) \cdot \nabla_{\theta} \log p_{\theta}\left(w^{s}\right)\right] θL(θ)=Ewspθ[r(ws)θlogpθ(ws)]

【混合损失函数】
基于强化的损失无法保证生成caption的可读性和流利性,所以使用强化学习损失和交叉熵损失的混合损失函数,即 L M I X E D = ( 1 − γ ) L X E + γ L R L L_{\mathrm{MIXED}}=(1-\gamma) L_{\mathrm{XE}}+\gamma L_{\mathrm{RL}} LMIXED=(1γ)LXE+γLRL γ \gamma γ是用于平衡两种损失的调整参数。为了实现退火和更快地收敛,从优化的交叉熵损失基线模型开始,然后着手优化上述混合损失函数。

【奖励函数】
CIDEr、BLEU、METEOR都是基于生成的caption样本和真实的参考之间的匹配进行打分。CIDEr基于多个reference captions的共识度量,与METEOR、ROUGE和BLEU系相比,与人类评估的相关性更高。并且使用更多的人类参考,CIDEr会表现的更好。
尽管CIDEr作为奖励的表现优于其它指标,但所有这些指标仍基于生成的caption和ground truth之间的无向n-gram匹配分数,如果在生成的caption中出现否定或错误的操作/对象,依然能得到很高的分数。
为了解决上述问题,通过使用蕴含得分来纠正短语匹配度量,以确保生成的caption在逻辑上是ground truth蕴含的。为了得到精确的蕴含得分,采用了Parikh等人的模型,该模型输出了生成的caption是否被ground truth作为前提而蕴含的概率。CIDEnt被定义为:
CIDEnt = { C I D E r − λ ,  if  E n t < β C I D E r ,  otherwise  =\left\{\begin{array}{ll}\mathrm{CIDEr}-\lambda, & \text { if } \mathrm{Ent}<\beta \\ \mathrm{CIDEr}, & \text { otherwise }\end{array}\right. ={CIDErλ,CIDEr, if Ent<β otherwise 
这意味着如果蕴含分数非常低,我们将会通过一个惩罚因子 λ \lambda λ来惩罚评测得分。这种定义方式可以确保仅在蕴含分数也很高的情况下信任基于CIDEr的奖励。

参考资料:Reinforced Video Captioning with Entailment Rewards

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值