多模态（MultiModal Learning）学习综述

lichunericli

已于 2024-05-02 00:12:52 修改

阅读量4k

点赞数 30

文章标签：人工智能自然语言处理

于 2024-02-14 00:52:22 首次发布

本文链接：https://blog.csdn.net/lichunericli/article/details/136104703

版权

本文详细介绍了多模态学习的概念，包括模态、多模态和多模态学习的定义，并概述了其发展历史，从行为时代到深度学习时代的关键里程碑。文章探讨了多模态学习的典型任务，如跨模态预训练、视听识别等，以及技术挑战，如表征学习、翻译、对齐和融合。文中特别提到了当前的SOTA模型——CLIP，其在无监督图文匹配上的突破和在多模态领域的广泛应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章出处：https://imzhanghao.com/2022/10/27/multimodal-learning/

最早开始关注到多模态机器学习是看到Jeff Dean在2019年年底NeurIPS大会上的一个采访报道，讲到了2020年机器学习趋势：多任务和多模态学习将成为突破口。

Jeff Dean 谈2020年机器学习趋势：多任务和多模式学习将成为突破口

站在2022年，也正如他预言的一样，多模态学习在行业内越来越火爆。

多模态机器学习在Google Trends上的表现

一、定义

多模态机器学习，英文全称 MultiModal Machine Learning (MMML)

模态（modal）是事情经历和发生的方式，我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态问题，研究多模态问题是推动人工智能更好的了解和认知我们周围世界的关键。

What is Mulimodel

1.1 模态

模态是指一些表达或感知事物的方式，每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

相较于图像、语音、文本等多媒体(Multi-media)数据划分形式，“模态”是一个更为细粒度的概念，同一媒介下可存在不同的模态。 比如我们可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。

1.2 多模态

多模态即是从多个模态表达或感知事物。 多模态可归类为同质性的模态，例如从两台相机中分别拍摄的图片，异质性的模态，例如图片与文本语言的关系。

多模态可能有以下三种形式：

- 描述同一对象的多媒体数据。如互联网环境下描述某一特定对象的视频、图片、语音、文本等信息。下图即为典型的多模态信息形式。

“下雪”场景的多模态数据(图像、音频与文本)

- 来自不同传感器的同一类媒体数据。如医学影像学中不同的检查设备所产生的图像数据，包括B超(B-Scan ultrasonography)、计算机断层扫描(CT)、核磁共振等；物联网背景下不同传感器所检测到的同一对象数据等。

- 具有不同的数据结构特点、表示形式的表意符号与信息。如描述同一对象的结构化、非结构化的数据单元；描述同一数学概念的公式、逻辑符号、函数图及解释性文本；描述同一语义的词向量、词袋、知识图谱以及其它语义符号单元等。

通常主要研究模态包括"3V"：即Verbal(文本)、Vocal(语音)、Visual(视觉)。人跟人交流时的多模态：

multimodal communicative behaviors

1.3 多模态学习

多模态机器学习是从多种模态的数据中学习并且提升自身的算法，它不是某一个具体的算法，它是一类算法的总称。

从语义感知的角度切入，多模态数据涉及不同的感知通道如视觉、听觉、触觉、嗅觉所接收到的信息;在数据层面理解，多模态数据则可被看作多种数据类型的组合，如图片、数值、文本、符号、音频、时间序列，或者集合、树、图等不同数据结构所组成的复合数据形式，乃至来自不同数据库、不同知识库的各种信息资源的组合。对多源异构数据的挖掘分析可被理解为多模态学习。

多模态学习举例

二、发展历史

多模态发展的四个时期

2.1 行为时代

The “behavioral” era (1970s until late 1980s)，这一阶段主要从心理学的角度对多模态这一现象进行剖析。

Chicago 的McNeill 认为手势是说话人的思考行为，是言语表达的重要组成部分，而不仅仅是补足。
1976年的McGurk效应：当语音与唇形不符合时，大脑会脑补出中和的声音MCGURK, H., MACDONALD, J. Hearing lips and seeing voices. Nature 264, 746–748 (1976). The McGurk Effect Video