深度学习多模态融合_多模态深度学习综述.PDF

本文综述了多模态深度学习,包括其在文字、语言、声音和图形等不同模态中的应用,如语言翻译、事件探测、信息描述、情绪识别、声音识别与合成以及多媒体检索。文章探讨了多模态深度学习中常见的模态表示、模态传译、模态融合和模态对齐四个核心问题,并详细阐述了解决这些问题的神经网络模型。此外,还介绍了多模态深度学习研究中常用的数据集和评估标准,以及对未来发展趋势的展望。
摘要由CSDN通过智能技术生成

多模态深度学习综述.PDF

37 6 Vol. 37 No. 6

第 卷第 期 计算机应用研究

录用定稿 Application Research of Computers Accepted Paper

多模态深度学习综述

刘建伟,丁熙浩,罗雄麟

( 中国石油大学(北京) 自动化系, 北京 102249)

摘 要:模态是指事物发生或存在的方式,如文字、语言、声音、图形等。多模态学习是指学习多个模态中各个模

态的信息,并且实现各个模态的信息的交流和转换。多模态深度学习是指建立可以完成多模态学习任务的神经网络

模型。多模态学习的普遍性和深度学习的热度赋予了多模态深度学习鲜活的生命力和发展潜力。旨在多模态深度学

习的发展前期,总结当前的多模态深度学习,发现在不同的多模态组合和学习目标下,多模态深度学习实现过程中

的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模

态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成,以及多媒体检索等方面研究,将多

模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各问题进行子分类

和论述,同时列举了为解决各问题产生的神经网络模型。最后论述了实际多模态系统,多模态深度学习研究中常用

的数据集和评判标准,并展望了多模态深度学习的发展趋势。

关键词:多模态;深度学习;神经网络;模态表示;模态传译;模态融合;模态对齐

中图分类号:TP181 doi: 10.19734/j.issn.1001-3695.2018.12.0857

Survey of multimodal deep learning

Liu Jianwei, Ding Xihao, Luo Xionglin

(Dept . of Automation , China University of Petroleum, Beijing 102249, China)

Abstract: A modality refers to the way in which something happens or is experienced, such as word, language, sound,

picture and so on . Multimodality is a combination of two or more modalities. Multimodal learning refers to learning the

information of each modality in the multimodality, and realizing the exchange and conversion of information of each

modality. Thus, Multimodal deep learning is the establishment of a neural network model that can accomplish multimodal

learning tasks. The universality of multimodal learning and the intensification of deep learning lead t

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值