本篇博客记录 AAAI 2023 论文合集中与本人研究方向相关的多模态论文泛读笔记
- BridgeTower: Building Bridges Between Encodersin Vision-Language Representation Learning(哈工大、MSRA 段楠(这位老师好厉害!🤩))
主要思想:通过级联的方式更好地融合多模态特征,取得比早融合或晚融合更好的效果。
主要思想:构建OneR:一个模态不可知的特征表示框架,不同于当前流行的双塔模型,将多模态的特征映射到统一的表征空间。
- Show Interpret and Tell: Entity-aware Contextualised Image Captioning in Wikipedia Universitat Autonoma de Barcelona 西班牙 巴塞罗那
主要思想:给定一张图像,不同的语境对模型产生的描述大有影响。语境作为一种外部信息&先验知识,会影响到描述的关注点。
主要思想:使用文本、空间和视觉信息实现文档编辑,自创数据集
- 意外收获:视觉语言导航(Vision Language Navigation)任务
该任务是让智能体跟着自然语言指令进行导航,这个任务需要同时理解自然语言指令与视角中可以看见的图像信息,然后在环境中对自身所处状态做出对应的动作,最终达到目标位置。该问题的难点还有自然语言指令的复杂、包含了当前可见与不可见的信息,环境给的反馈非常模糊使得智能体很难判断自身位置。
感觉这个任务很有意思,未来能够大有作为~
参考资料