AAAI 2021 | 多模态最新进展解读

本文总结了AAAI 2021上多模态学习的研究热点,包括Image-Text、Video-Text的图文融合,以及音频、电子健康记录等多模态信息处理,涉及图像描述、视频理解、社会关系抽取、情感识别等多个领域。
摘要由CSDN通过智能技术生成

作者:孙宇冲

单位:中国人民大学

多模态学习旨在使计算机拥有处理不同来源信息的能力,近年来成为了人工智能领域的研究热点。多模态学习将不同模态信息进行融合,学习不同模态信息之间的关联。人类对信息的处理其实也是多模态的,如人可以同时利用视觉和听觉信息理解说话人的情感、可以通过视觉信息补全文本中的缺失信息等。多模态学习不仅可以用在视觉、听觉和自然语言信息的融合,也可以广泛用在雷达、传感器等信息的分析处理。因此多模态学习的研究和应用也越来越广泛。

在AAAI 2021上有许多多模态方向的相关研究,以下对AAAI 2021上多模态相关研究的最新进展作总结:

01

Image-Text多模态研究

常见的图文多模态研究的任务主要有Image Caption、图文跨模态检索等,在AAAI 2021上也有多模态翻译、视觉故事生成、多模态命名实体识别等相关研究。

近年来出现了许多图文预训练模型,在 AAAI 2021上,百度提出的ERNIE-VIL[1]模型利用场景图中结构化的知识,使用场景图预测任务进行预训练,使模型能够进行细粒度的语义对齐。VIVO[2]模型使用Image-Tag进行预训练,使语义标签能和图片中的region特征对齐,在下游的Image Caption任务中,解决了新物体(Novel Object)识别的问题。RpBERT[3]使用多模态BERT模型来完成多模态命名实体识别任务,提出的Relation Propagation机制可以根据图片文本之间的相关性更好地利用视觉信息。

Wang et al. [4]研究了多模态翻译任务,使用了Object-masking损失使模型可以把翻译的实体和图片中相关的Object相联系。Chen et al. [5]研究了视觉故事讲述任务,先使用常识知识进行概念选择,然后使用预训练模型从概念和图片生成完整的故事,增强了故事的丰富性和多样性。Zhang et al.[6]也研究了多模态命名实体识别问题,提出一种多模态图融合的方法融合语义单元信息。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值