（七十一）：Entangled Transformer for Image Captioning

Laura_Wangzx

已于 2023-06-20 19:51:09 修改

阅读量313

点赞数

分类专栏： “情感分析”研究方向论文-精读总结文章标签： transformer 计算机视觉人工智能

于 2021-11-12 12:14:15 首次发布

本文链接：https://blog.csdn.net/qq_37486501/article/details/121280885

版权

88 篇文章 198 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了Entangled Transformer，一种用于图像字幕的新型模型，该模型通过Entangled Attention和门控双边控制器（GBC）同时利用视觉和语义信息，解决了传统模型中视觉和语言的语义差距问题。实验表明，该模型在MSCOCO数据集上实现了最先进的性能。

摘要由CSDN通过智能技术生成

出处： ICCV 2019: 8927-8936
代码：
题目：用于图像字幕的纠缠Transformer
主要内容：基于transformer的序列建模框架，该框架仅包含关注层和前馈层。为了弥补语义上的差距，我们引入了使Transformer能够同时利用语义和视觉信息的entanglement Attention(ETA)。此外，还提出了门控双边控制器(GBC)来指导多通道信息之间的交互
存在问题：（1）一般都是利用低级特征映射[41]或高级目标ROI-pooled特征[29,2]来识别单词最相关的区域。但是，由于语义上的差距，并不是标题中的每个单词都有相应的视觉信号[25]，特别是与抽象概念和复杂关系相关联的符号。——可以结合视觉和语义，利用互补形式的信息。（2）由于循环的性质，rnn[11,27,34]很难记住许多步骤之前的输入，特别是最初的视觉输入。
本文：扩展了高效且直接的Transformer[37]框架，并使用我们提出的纠缠注意(ETA)和门控双边控制器(GBC)来同时探索视觉和语义信息。

Abstract

在图像字幕中，典型的注意机制很难识别等价的视觉信号，尤其是在预测高度抽

了解本专栏

关注