作者:孙宇冲
单位:中国人民大学
多模态学习旨在使计算机拥有处理不同来源信息的能力,近年来成为了人工智能领域的研究热点。多模态学习将不同模态信息进行融合,学习不同模态信息之间的关联。人类对信息的处理其实也是多模态的,如人可以同时利用视觉和听觉信息理解说话人的情感、可以通过视觉信息补全文本中的缺失信息等。多模态学习不仅可以用在视觉、听觉和自然语言信息的融合,也可以广泛用在雷达、传感器等信息的分析处理。因此多模态学习的研究和应用也越来越广泛。
在AAAI 2021上有许多多模态方向的相关研究,以下对AAAI 2021上多模态相关研究的最新进展作总结:
01
Image-Text多模态研究
常见的图文多模态研究的任务主要有Image Caption、图文跨模态检索等,在AAAI 2021上也有多模态翻译、视觉故事生成、多模态命名实体识别等相关研究。
近年来出现了许多图文预训练模型,在 AAAI 2021上,百度提出的ERNIE-VIL[1]模型利用场景图中结构化的知识,使用场景图预测任务进行预训练,使模型能够进行细粒度的语义对齐。VIVO[2]模型使用Image-Tag进行预训练,使语义标签能和图片中的region特征对齐,在下游的Image Caption任务中,解决了新物体(Novel Object)识别的问题。RpBERT[3]使用多模态BERT模型来完成多模态命名实体识别任务,提出的Relation Propagation机制可以根据图片文本之间的相关性更好地利用视觉信息。
Wang et al. [4]研究了多模态翻译任务,使用了Object-masking损失使模型可以把翻译的实体和图片中相关的Object相联系。Chen et al. [5]研究了视觉故事讲述任务,先使用常识知识进行概念选择,然后使用预训练模型从概念和图片生成完整的故事,增强了故事的丰富性和多样性。Zhang et al.[6]也研究了多模态命名实体识别问题,提出一种多模态图融合的方法融合语义单元信息。