2021:A Thorough Review on Recent Deep Learning Methodologies for Image Captioning

摘要

        目前对该领域的研究主要集中在基于深度学习的方法,其中注意力机制、深度强化和对抗性学习似乎是本研究课题的前沿。本文回顾了最近的方法,如UpDown,OSCAR,VIVO,Meta Learning和使用条件生成对抗网络的模型。尽管基于GAN的模型实现了最高的分数,但UpDown表示了图像标注的重要基础,OSCAR和VIVO在它们使用新的对象标注时更有用。

1. 介绍

        在图像标注中起关键作用的技术之一是注意力机制的使用,transformer引入之后,如机器翻译和语言建模等任务得到了显著改进,图像标注也是如此,在本文中对不同模型广泛使用top-down视觉注意力;另一个技术是深度强化学习激发了研究者的兴趣,这已经证明它对不寻常的图像(如森林里的床)表现特别好。它在图像字幕中使用的方式是通过最大化奖励函数的期望值来优化奖励函数,这是不能使用MLE来实现的,因为指标是不可区分的。

2. 方法

2.1 UpDown

        一个连接了视觉bottom-up机制和特定任务top-down的模型,前者对它认为显著的区域提出建议,而后者使用上下文计算这些区域上的注意力分布,从而允许将注意力指向输入图像中的重要对象。

2.2 OSCAR

[16]Oscar: Object-semantics aligned pre-training for vision-language tasks.2020.

        视觉-语言预训练(VLP)被广泛应用于学习多模态表示,但面临两个问题[16]:由于图像区域的重叠导致难以识别特征,缺乏标注文字和对应图像区域的对齐。[16]使用对象标记作为“锚点”来解决这个问题,具体地,它们使用三元组作为输入,由图像

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值