(八十二):Multimodal Transformer with Multi-View Visual Representation for Image Captioning

该研究提出了一种新的多模态Transformer框架,用于图像字幕任务,结合自注意力和共同注意力,提高了模型的性能。引入多视图视觉特征以增强表示能力,通过两种不同的策略处理对齐和非对齐的多视图特性。实验结果显示,该方法在MSCOCO图像字幕数据集上优于现有技术,且在实时排行榜上排名第一。
摘要由CSDN通过智能技术生成

  • 出处: IEEE Trans. Circuits Syst. Video Technol. 30(12): 4467-4480 (2020)
  • 代码:
  • 题目:多模态Transformer与多视图视觉表示图像字幕
  • 主要内容:提出了一种新的多模态变压器(MT)框架用于图像字幕。引入了多视图学习,并提出了两种MT变体MTamv和MTumv,分别对对齐的多视图特征和未对齐的多视图特征进行建模。

Abstract

摘要图像字幕旨在自动生成对给定图像的自然语言描述,目前最先进的模型都采用了编码器-解码器框架。
该框架包括一种基于卷积神经网络(CNN)的图像编码器,该编码器从输入图像中提取基于区域的视觉特征;一种基于循环神经网络(RNN)的字幕解码器,该解码器基于视觉特征并具有注意机制生成输出字幕词。
尽管已有的研究取得了成功,但目前的方法只模拟了表征模态间相互作用的共同注意,而忽略了表征模态内相互作用的自我注意。受Transformer模型在机器翻译中的成功启发,本文将其扩展到用于图像字幕的多模态Transformer (MT)模型。与现有的图像标注方法相比,MT模型同时捕获了一个统一注意块内的模态和模态间的相互作用。由于这些注意块的深度模块化构成,MT模型可以进行复杂的多模态推理,输出精确的字幕。此外,为了进一步提高图像配字性能,将多视图视觉特征无缝地引入到MT模型中。我们使用基准的MSCOCO图像字幕数据集,对我们的方法进行了定量和定性的评估,并进行了广泛的消融研究,以调查其有效性背后的原因。实验结果表明,该方法明显优于以往的方法。我们的解决

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
引用\[2\]:论文名称:Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer 论文作者:Jianfei Yu, Jing Jiang, Li Yang, Rui Xia 论文地址:2020.acl-main.306 https://www.aclweb.org/anthology/2020.acl-main.306/ 论文代码:UMT https://github.com/jefferyYu/UMT 论文摘要: 根据引用\[2\]提供的信息,multimodal transformer的代码可以在GitHub上找到,代码的链接是https://github.com/jefferyYu/UMT。这个代码是用于实现论文《Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer》中提出的方法的。 #### 引用[.reference_title] - *1* *3* [[深度学习论文笔记] TransBTS: Multimodal Brain Tumor Segmentation Using Transformer 基于Transformer的...](https://blog.csdn.net/weixin_49627776/article/details/115449591)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [通过统一多模态Transformer(UMT)的实体扫描检测(ESD)来改进多模态命名实体识别(MNER)](https://blog.csdn.net/qq_43703681/article/details/113748435)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值