(七十一):Entangled Transformer for Image Captioning

本文介绍了Entangled Transformer,一种用于图像字幕的新型模型,该模型通过Entangled Attention和门控双边控制器(GBC)同时利用视觉和语义信息,解决了传统模型中视觉和语言的语义差距问题。实验表明,该模型在MSCOCO数据集上实现了最先进的性能。
摘要由CSDN通过智能技术生成

  • 出处: ICCV 2019: 8927-8936
  • 代码:
  • 题目:用于图像字幕的纠缠Transformer
  • 主要内容:基于transformer的序列建模框架,该框架仅包含关注层和前馈层。为了弥补语义上的差距,我们引入了使Transformer能够同时利用语义和视觉信息的entanglement Attention(ETA)。此外,还提出了门控双边控制器(GBC)来指导多通道信息之间的交互
    存在问题:(1)一般都是利用低级特征映射[41]或高级目标ROI-pooled特征[29,2]来识别单词最相关的区域。 但是,由于语义上的差距,并不是标题中的每个单词都有相应的视觉信号[25],特别是与抽象概念和复杂关系相关联的符号。——可以结合视觉和语义,利用互补形式的信息。(2)由于循环的性质,rnn[11,27,34]很难记住许多步骤之前的输入,特别是最初的视觉输入。
    本文:扩展了高效且直接的Transformer[37]框架,并使用我们提出的纠缠注意(ETA)和门控双边控制器(GBC)来同时探索视觉和语义信息

Abstract

在图像字幕中,典型的注意机制很难识别等价的视觉信号,尤其是在预测高度抽

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值