2021：A Thorough Review on Recent Deep Learning Methodologies for Image Captioning

最新推荐文章于 2024-06-16 20:22:36 发布

weixin_42653320

最新推荐文章于 2024-06-16 20:22:36 发布

阅读量164

点赞数

分类专栏：图像标注文章标签：深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42653320/article/details/120428907

版权

摘要

目前对该领域的研究主要集中在基于深度学习的方法，其中注意力机制、深度强化和对抗性学习似乎是本研究课题的前沿。本文回顾了最近的方法，如UpDown，OSCAR，VIVO，Meta Learning和使用条件生成对抗网络的模型。尽管基于GAN的模型实现了最高的分数，但UpDown表示了图像标注的重要基础，OSCAR和VIVO在它们使用新的对象标注时更有用。

1. 介绍

在图像标注中起关键作用的技术之一是注意力机制的使用，transformer引入之后，如机器翻译和语言建模等任务得到了显著改进，图像标注也是如此，在本文中对不同模型广泛使用top-down视觉注意力；另一个技术是深度强化学习激发了研究者的兴趣，这已经证明它对不寻常的图像(如森林里的床)表现特别好。它在图像字幕中使用的方式是通过最大化奖励函数的期望值来优化奖励函数，这是不能使用MLE来实现的，因为指标是不可区分的。

2. 方法

2.1 UpDown

一个连接了视觉bottom-up机制和特定任务top-down的模型，前者对它认为显著的区域提出建议，而后者使用上下文计算这些区域上的注意力分布，从而允许将注意力指向输入图像中的重要对象。

2.2 OSCAR

[16]Oscar: Object-semantics aligned pre-training for vision-language tasks.2020.

视觉-语言预训练(VLP)被广泛应用于学习多模态表示，但面临两个问题[16]：由于图像区域的重叠导致难以识别特征，缺乏标注文字和对应图像区域的对齐。[16]使用对象标记作为“锚点”来解决这个问题，具体地，它们使用三元组作为输入，由图像

最低0.47元/天解锁文章

weixin_42653320

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021：A Thorough Review on Recent Deep Learning Methodologies for Image Captioning

摘要目前对该领域的研究主要集中在基于深度学习的方法，其中注意力机制、深度强化和对抗性学习似乎是本研究课题的前沿。本文回顾了最近的方法，如UpDown，OSCAR，VIVO，Meta Learning和使用条件生成对抗网络的模型。尽管基于GAN的模型实现了最高的分数，但UpDown表示了图像标注的重要基础，OSCAR和VIVO在它们使用寻的对象标注时更有用。1. 介绍在图像标注中起关键作用的技术之一是注意力机制的使用，transformer引入之后，如机器翻译和语言...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。