论文阅读笔记｜2023 AAAI 多模态论文研读

_Meilinger_

已于 2023-03-10 20:32:55 修改

阅读量1.1k

点赞数 2

分类专栏：论文研读文章标签：论文阅读深度学习计算机视觉多模态自然语言处理

于 2023-03-10 20:32:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36332660/article/details/129451375

版权

论文研读专栏收录该内容

37 篇文章 9 订阅

订阅专栏

本篇博客记录 AAAI 2023 论文合集中与本人研究方向相关的多模态论文泛读笔记

BridgeTower: Building Bridges Between Encodersin Vision-Language Representation Learning（哈工大、MSRA 段楠（这位老师好厉害！🤩））

主要思想：通过级联的方式更好地融合多模态特征，取得比早融合或晚融合更好的效果。

BridgeTower

Unifying Vision-Language Representation Space with Single-tower Transformer 首尔国立大学

主要思想：构建OneR：一个模态不可知的特征表示框架，不同于当前流行的双塔模型，将多模态的特征映射到统一的表征空间。
在这里插入图片描述

在这里插入图片描述

Show Interpret and Tell: Entity-aware Contextualised Image Captioning in Wikipedia Universitat Autonoma de Barcelona 西班牙巴塞罗那

主要思想：给定一张图像，不同的语境对模型产生的描述大有影响。语境作为一种外部信息&先验知识，会影响到描述的关注点。

在这里插入图片描述

DocEdit: Language-guided Document Editing

主要思想：使用文本、空间和视觉信息实现文档编辑，自创数据集

意外收获：视觉语言导航（Vision Language Navigation）任务

该任务是让智能体跟着自然语言指令进行导航，这个任务需要同时理解自然语言指令与视角中可以看见的图像信息，然后在环境中对自身所处状态做出对应的动作，最终达到目标位置。该问题的难点还有自然语言指令的复杂、包含了当前可见与不可见的信息，环境给的反馈非常模糊使得智能体很难判断自身位置。

图源文章：Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks
（CVPR, 2020）

感觉这个任务很有意思，未来能够大有作为～

参考资料

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
1
评论
论文阅读笔记｜2023 AAAI 多模态论文研读

2023 AAAI 多模态论文研读
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

_Meilinger_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。