AAAI 2021 | 多模态最新进展解读

智源社区

于 2021-03-17 18:07:56 发布

阅读量2.5k

点赞数 5

文章标签：机器学习人工智能深度学习自然语言处理计算机视觉

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/114958877

版权

本文总结了AAAI 2021上多模态学习的研究热点，包括Image-Text、Video-Text的图文融合，以及音频、电子健康记录等多模态信息处理，涉及图像描述、视频理解、社会关系抽取、情感识别等多个领域。

摘要由CSDN通过智能技术生成

作者：孙宇冲

单位：中国人民大学

多模态学习旨在使计算机拥有处理不同来源信息的能力，近年来成为了人工智能领域的研究热点。多模态学习将不同模态信息进行融合，学习不同模态信息之间的关联。人类对信息的处理其实也是多模态的，如人可以同时利用视觉和听觉信息理解说话人的情感、可以通过视觉信息补全文本中的缺失信息等。多模态学习不仅可以用在视觉、听觉和自然语言信息的融合，也可以广泛用在雷达、传感器等信息的分析处理。因此多模态学习的研究和应用也越来越广泛。

在AAAI 2021上有许多多模态方向的相关研究，以下对AAAI 2021上多模态相关研究的最新进展作总结：

Image-Text多模态研究

常见的图文多模态研究的任务主要有Image Caption、图文跨模态检索等，在AAAI 2021上也有多模态翻译、视觉故事生成、多模态命名实体识别等相关研究。

近年来出现了许多图文预训练模型，在 AAAI 2021上，百度提出的ERNIE-VIL[1]模型利用场景图中结构化的知识，使用场景图预测任务进行预训练，使模型能够进行细粒度的语义对齐。VIVO[2]模型使用Image-Tag进行预训练，使语义标签能和图片中的region特征对齐，在下游的Image Caption任务中，解决了新物体(Novel Object)识别的问题。RpBERT[3]使用多模态BERT模型来完成多模态命名实体识别任务，提出的Relation Propagation机制可以根据图片文本之间的相关性更好地利用视觉信息。

Wang et al. [4]研究了多模态翻译任务，使用了Object-masking损失使模型可以把翻译的实体和图片中相关的Object相联系。Chen et al. [5]研究了视觉故事讲述任务，先使用常识知识进行概念选择，然后使用预训练模型从概念和图片生成完整的故事，增强了故事的丰富性和多样性。Zhang et al.[6]也研究了多模态命名实体识别问题，提出一种多模态图融合的方法融合语义单元信息。