什么是多模态机器学习?

首先,什么叫做模态(Modality)呢?

每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。

因此,多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。

人其实是一个多模态学习的总和,所以也有”砖家“说了,多模态学习才是真正的人工智能发展方向。

本文将针对多模态学习在深度学习发面的研究方向和应用做相关介绍,主要参考了来自ACL 2017的《Tutorial on Multimodal Machine Learning》。

多模态学习的分类

多模态学习可以划分为以下五个研究方向:

  1. 多模态表示学习 Multimodal Representation
  2. 模态转化 Translation
  3. 对齐 Alignment
  4. 多模态融合 Multimodal Fusion
  5. 协同学习 Co-learning

下面将针对这五大研究方向,逐一进行介绍。

多模态表示学习 Multimodal Representation

单模态的表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表示学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。主要包括两大研究方向:联合表示(Joint Representations)协同表示(Coordinated Representations)

  • 联合表示将多个模态的信息一起映射到一个统一的多模态向量空间;
  • 协同表示负责将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)。

多模态深度学习是一种融合多种感官信息的学习方法,它能够同时处理视觉、听觉和语言等不同类型的数据。多模态深度学习paper主要是研究多模态深度学习的原理、方法、框架和应用。 在多模态深度学习paper中,一般会对多模态数据的表示、融合和学习进行研究。首先,它会介绍多模态数据的表示方式,比如如何将图像、音频和文本等数据表示成机器可以理解的形式,常见的方法包括使用卷积神经网络(CNN)和循环神经网络(RNN)等。 其次,多模态深度学习paper会探讨如何将不同类型的数据进行融合。融合可以是级联式的,即将不同模态的网络分别训练,然后将它们的结果融合在一起进行决策。也可以是并行式的,即同时训练多个模态的网络,然后将它们的特征进行融合。此外,一些paper还会提出一些专门的融合算法,比如多模态融合网络和交互式融合网络。 最后,多模态深度学习paper也会讨论多模态深度学习在不同应用领域的具体应用。比如在图像识别中,多模态深度学习可以同时利用图像和文本信息来提高识别精度;在语音识别中,多模态深度学习可以同时利用语音和文本信息来提高识别准确率。 总之,多模态深度学习paper是对多模态深度学习理论和应用的研究,它为我们理解和应用多模态深度学习提供了重要的参考和指导。
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值