（八十二）：Multimodal Transformer with Multi-View Visual Representation for Image Captioning

Laura_Wangzx

已于 2023-06-28 22:24:33 修改

阅读量131

点赞数

分类专栏： “情感分析”研究方向论文-精读总结文章标签：计算机视觉人工智能深度学习

于 2022-03-27 09:11:17 首次发布

本文链接：https://blog.csdn.net/qq_37486501/article/details/122870261

版权

“情感分析”研究方向论文-精读总结专栏收录该内容

88 篇文章 197 订阅 ¥19.90 ¥99.00

订阅专栏

该研究提出了一种新的多模态Transformer框架，用于图像字幕任务，结合自注意力和共同注意力，提高了模型的性能。引入多视图视觉特征以增强表示能力，通过两种不同的策略处理对齐和非对齐的多视图特性。实验结果显示，该方法在MSCOCO图像字幕数据集上优于现有技术，且在实时排行榜上排名第一。

摘要由CSDN通过智能技术生成

（八十二）：Multimodal Transformer with Multi-View Visual Representation for Image Captioning

Abstract
1. Introduction
2. Related Work
- A：图像字幕Image Captioning
- B：注意力机制Attention Mechanism
3. Multimodal transformer
- A. The Transformer Model
- B. Multimodal Transformer for Image Captioning
4. Image encoder with multi-view visual representation
- A. Aligned Multi-View Image Encoder（AMV）
- B. Unaligned Multi-View Image Encoder
5. EXPERIMENTS
6. Conclusions

出处： IEEE Trans. Circuits Syst. Video Technol. 30(12): 4467-4480 (2020)
代码：
题目：多模态Transformer与多视图视觉表示图像字幕
主要内容：提出了一种新的多模态变压器(MT)框架用于图像字幕。引入了多视图学习，并提出了两种MT变体MTamv和MTumv，分别对对齐的多视图特征和未对齐的多视图特征进行建模。

Abstract

摘要图像字幕旨在自动生成对给定图像的自然语言描述，目前最先进的模型都采用了编码器-解码器框架。
该框架包括一种基于卷积神经网络(CNN)的图像编码器，该编码器从输入图像中提取基于区域的视觉特征;一种基于循环神经网络(RNN)的字幕解码器，该解码器基于视觉特征并具有注意机制生成输出字幕词。
尽管已有的研究取得了成功，但目前的方法只模拟了表征模态间相互作用的共同注意，而忽略了表征模态内相互作用的自我注意。受Transformer模型在机器翻译中的成功启发，本文将其扩展到用于图像字幕的多模态Transformer (MT)模型。与现有的图像标注方法相比，MT模型同时捕获了一个统一注意块内的模态和模态间的相互作用。由于这些注意块的深度模块化构成，MT模型可以进行复杂的多模态推理，输出精确的字幕。此外，为了进一步提高图像配字性能，将多视图视觉特征无缝地引入到MT模型中。我们使用基准的MSCOCO图像字幕数据集，对我们的方法进行了定量和定性的评估，并进行了广泛的消融研究，以调查其有效性背后的原因。实验结果表明，该方法明显优于以往的方法。我们的解决

了解本专栏

Laura_Wangzx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
（八十二）：Multimodal Transformer with Multi-View Visual Representation for Image Captioning

（八十二）：Multimodal Transformer with Multi-View Visual Representation for Image CaptioningAbstract1. Introduction2. Related WorkA：图像字幕Image CaptioningB：注意力机制Attention Mechanism3. Multimodal transformerA. The Transformer ModelB. Multimodal Transformer for Imag
复制链接

扫一扫