多模态学习笔记
本文作为对多模态领域的初探和学习记录,可能有所疏漏,也可能参考过多,敬请谅解
1 定义
Multimodal machine learning is the study of computer algorithms that learn and improve performance through the use of multimodal datasets.
有了定义之后下一个问题是多模态算法用来处理什么问题呢?
单模态或单模态模型,即只处理单一模态的模型,已经得到了广泛的研究,并在计算机视觉和自然语言处理等领域取得了非凡的成果。然而,单模态深度学习的能力有限,因此需要多模态模型。这里需要举个栗子方便理解一下:
比如驾驶条件下,你需要去视觉识别交通标志,也需要听听旁边的喇叭声音确定既正确行驶,周边的车辆又不会造成威胁,你还要盯仪表盘确保车辆正常,你就成了一个多模态模型。类似的,现在的自动驾驶通过多个传感器收集数据和信息,包含了图像和速度等等数据来确保车辆能够正常行驶,多模态模型可以把这些数据融合在一起产生一个决策,比如加速减速。避免了诸如:机器不知道限速多少一直加速的情况存在。
2 模态
2.1 典型的模态
在多模态深度学习中,最典型的模态是视觉、文本和语音。然而,其他不太典型的模式包括三维视觉数据、深度传感器数据和激光雷达数据(在自动驾驶汽车中非常典型)。在临床实践中,成像模式包括计算机断层扫描(CT)和 X 射线图像,而非图像模式包括脑电图(EEG)数据。热数据或眼动追踪设备数据等传感器数据也可列入清单。
2.2 多模态融合策略
多模态融合策略:特征层融合、决策层融合和混合融合(主要参考:徐尚.基于文本、语音和图像的多模态情感分析技术研究[D].南京邮电大学,2022.DOI:10.27251/d.cnki.gnjdc.2022.000347)
对于这几种方法,优缺点,直接GPT问了一下,仅供参考
特征层融合(Early Fusion)
优点:
- 数据一致性: 早期融合通过直接结合原始特征,保持了数据的自然结构和关系。
- 特征关联: 提供了机会来探索不同模态间的低级特征关联。
- 简化模型: 在特征级融合之后,可以直接使用标准的单模态学习算法。
缺点:
- 计算成本: 特征层融合可能会导致特征维度急剧增加,增加计算负担。
- 模态差异: 不同模态特征可能有不同的尺度和分布,需要仔细的预处理和规范化。
- 缺乏灵活性: 早期融合不适合处理不同模态间的时间差异或不同采样率。
决策层融合(Late Fusion)
优点:
- 灵活性: 允许单独处理每种模态并进行优化,适用于异构数据源。
- 鲁棒性: 单个模态的噪声或错误对最终决策的影响较小。
- 适应性: 容易整合附加的模态或处理不同模态之间的时间对齐问题。
缺点:
- 失去低级特征关联: 可能无法捕获早期融合可以利用的跨模态特征交互。
- 模型复杂性: 需要为每种模态独立训练一个模型,然后再融合这些模型的输出。
- 决策不一致: 不同模态的决策可能相互矛盾,需要复杂的策略来解决这些冲突。
混合融合(Hybrid Fusion)
优点:
- 灵活性和准确性: 结合了特征层和决策层融合的优点,可以在不同阶段提取和利用信息。
- 适应性: 可以根据不同模态的特点和重要性调整融合策略。
- 中级特征: 有能力利用中级特征,这些特征可能在早期或晚期融合中不明显。
缺点:
- 设计复杂性: 混合融合的策略更加复杂,需要更多的设计考虑。
- 计算成本: 可能需要额外的计算资源来支持多阶段的融合处理。
- 过拟合风险: 在尝试利用所有可能的信息时,可能增加过拟合的风险。
2.3 多模态融合方法
多模态融合方法:基于简单操作的融合、基于注意力机制的融合、基于张量的融合(主要参考徐尚.基于文本、语音和图像的多模态情感分析技术研究[D].南京邮电大学,2022.DOI:10.27251/d.cnki.gnjdc.2022.000347)
这里附上注意力机制的详解:https://zhuanlan.zhihu.com/p/53036028?utm_id=0
这里同样问了下GPT仅供参考:
基于简单操作的融合
这类方法通常涉及简单的数学操作,如加法、乘法、或者连接(concatenation)。
优点:
- 实现简单: 只需要基本的数学操作,容易理解和实现。
- 计算效率: 通常计算代价低,因为涉及的操作简单。
缺点:
- 表达能力限制: 可能无法充分捕捉和利用不同模态之间复杂的交互关系。
- 信息损失: 直接的操作可能导致一些重要信息的丢失。
基于注意力机制的融合
这类方法使用注意力机制来动态地决定各部分信息的重要性。
优点:
- 动态权重分配: 能够根据上下文动态地分配不同模态之间的重要性。
- 捕捉依赖关系: 更好地捕捉不同模态间的复杂关系。
缺点:
- 计算复杂度: 引入注意力机制通常会增加模型的计算负担。
- 实现复杂性: 比简单操作更难以设计和调整。
基于张量的融合
张量融合涉及到将不同模态的特征映射到一个多维空间中,并在这个空间中进行操作。
优点:
- 表达能力强: 张量可以在多个维度上表示数据,提供了更丰富的信息表达形式。
- 模态交互: 可以在高维空间内自然地捕捉不同模态间的交互。
缺点:
- 计算成本: 通常涉及到更大的计算量,特别是在高维数据处理时。
- 优化难度: 张量操作的优化可能比较复杂,需要精心设计算法。
多模态的主要步骤
这里有很多的案例,我觉得相对于新手都比较难以理解不妨贴一张来自论文的图片方便理解
来自:王凤儒.基于多模态融合的驾驶人愤怒情绪识别方法研究[D].吉林大学,2023.DOI:10.27162/d.cnki.gjlin.2023.001130
这篇论文走了一个完整的流程
3 典型的任务
注:这里主要参考网站:多模态学习(MultiModal Learning) - 张浩在路上 (imzhanghao.com)
直接点进去参考,我懒得粘贴了
4 多模态的研究
5 网络
CLIP
论文: Learning Transferable Visual Models From Natural Language Supervision
神器CLIP:连接文本和图像,打造可迁移的视觉模型 - 知乎 (zhihu.com)
代码链接在论文摘要末尾
参考链接
多模态学习综述(MultiModal Learning) - 知乎 (zhihu.com)
Multimodal Deep Learning: Definition, Examples, Applications (v7labs.com)
多模态学习(MultiModal Learning) - 张浩在路上 (imzhanghao.com)
Multimodal Learning with Transformers: A Survey 作者:Peng Xu, Xiatian Zhu, and David A. Clifton
https://zhuanlan.zhihu.com/p/666425324
https://zhuanlan.zhihu.com/p/493489688)
Advances in multimodal data fusion in neuroimaging: Overview, challenges, and novel orientation(神经成像领域)
面向深度学习的多模态融合技术研究综述
徐尚.基于文本、语音和图像的多模态情感分析技术研究[D].南京邮电大学,2022.DOI:10.27251/d.cnki.gnjdc.2022.000347
王凤儒.基于多模态融合的驾驶人愤怒情绪识别方法研究[D].吉林大学,2023.DOI:10.27162/d.cnki.gjlin.2023.001130