image caption （三）强化学习之Self-critical

最新推荐文章于 2024-01-21 11:22:34 发布

刘咚咚的记事本

最新推荐文章于 2024-01-21 11:22:34 发布

阅读量2k

点赞数

分类专栏： image caption

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41386168/article/details/108244888

版权

image caption 专栏收录该内容

4 篇文章 7 订阅

订阅专栏

《Self-critical Sequence Training（SCST） for Image Captioning》

RL：训练模型，输入state即图片及已经生成的单词，输出action即下一个单词，使得模型得到更高的reward（metric）。

Policy Gradient是RL的一个比较基本的算法，利用reward充当label，基于Policy来做梯度下降从而优化我模型。

假设一次状态行为序列为（状态动作奖励）

为reward，表示采取策略的发生概率，N为采样的数目。

使用了两个caption model作为基础，分别是

1.FC model，最小化cross entropy loss。

2.Attention Model，把attention feature输入到LSTM的cell node，并使用ADAM方法优化

把序列问题看作是强化学习问题：

Agent: LSTM
Environment: words and image features
policy:模型参数θ决定policy pθ
Action: prediction of the next word
State: cells and hidden states of the LSTM
Reward: CIDEr score r

引入一个baseline来减少gradient的variance，进行bias correction。

使用测试时生成的句子作为baseline，避免了单独训练一个baseline function。

在实际训练中过我们用sample得到的caption来作为这个梯度的估计（类似于mini-batch）:

对sample得到的，后面一项一定是小于0的，这样的话，如果前面大于0的话，对这个单词的梯度就是负的。那么我们在做梯度下降的时候，就会提高这个单词的分数。

SCST的思想就是用当前模型在测试阶段生成的词的reward作为baseline.

用greedy decoding得到的的reward做baseline。这个方法避免了单独训练一个baseline function。如果sample出来的结果比greedy decoding的结果烂，模型就会抑制这个结果，而如果结果比greedy decoding好的话，模型就会push up这个结果。

刘咚咚的记事本

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。