论文阅读笔记|2023 AAAI 多模态论文研读

本篇博客记录 AAAI 2023 论文合集中与本人研究方向相关的多模态论文泛读笔记

  1. BridgeTower: Building Bridges Between Encodersin Vision-Language Representation Learning(哈工大、MSRA 段楠(这位老师好厉害!🤩))

主要思想:通过级联的方式更好地融合多模态特征,取得比早融合或晚融合更好的效果。

BridgeTower


  1. Unifying Vision-Language Representation Space with Single-tower Transformer 首尔国立大学

主要思想:构建OneR:一个模态不可知的特征表示框架,不同于当前流行的双塔模型,将多模态的特征映射到统一的表征空间。
在这里插入图片描述

在这里插入图片描述


  1. Show Interpret and Tell: Entity-aware Contextualised Image Captioning in Wikipedia Universitat Autonoma de Barcelona 西班牙 巴塞罗那

主要思想:给定一张图像,不同的语境对模型产生的描述大有影响。语境作为一种外部信息&先验知识,会影响到描述的关注点。

在这里插入图片描述


  1. DocEdit: Language-guided Document Editing

主要思想:使用文本、空间和视觉信息实现文档编辑,自创数据集


  1. 意外收获:视觉语言导航(Vision Language Navigation)任务

该任务是让智能体跟着自然语言指令进行导航,这个任务需要同时理解自然语言指令与视角中可以看见的图像信息,然后在环境中对自身所处状态做出对应的动作,最终达到目标位置。该问题的难点还有自然语言指令的复杂、包含了当前可见与不可见的信息,环境给的反馈非常模糊使得智能体很难判断自身位置。

图源文章:Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks
(CVPR, 2020)

感觉这个任务很有意思,未来能够大有作为~


参考资料

  1. CVPR 19 | Auxiliary Reasoning Tasks | AuxRN - 知乎 (zhihu.com)
  2. Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks
    (CVPR, 2020)
  3. AAAI 2023 Oral - Multi-modal 多模态 / Vision-language 视觉语言收录论文集合(42篇) - 知乎 (zhihu.com)
  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Meilinger_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值