多模态机器学习基础、应用及预训练模型介绍

小白胖爱学习-

已于 2022-03-08 16:21:34 修改

阅读量8.4k

点赞数 7

文章标签：深度学习自然语言处理计算机视觉人工智能机器学习

于 2022-03-06 16:38:25 首次发布

本文链接：https://blog.csdn.net/m0_37723079/article/details/123216599

版权

本文深入探讨了多模态机器学习的五大核心技术挑战，包括多模态表示、模态转换、模态对齐、模态融合和协同学习。同时，介绍了多模态网络在图文反讽识别、情感分类等方面的应用，并重点讨论了ViLBert、ERNIE-ViL等预训练模型的特征提取、融合策略和下游任务效果。多模态学习旨在构建能处理多种模式信息的模型，对于理解和推理世界具有重要意义。

摘要由CSDN通过智能技术生成

早在公元前四世纪，哲学家和艺术学家提出了多模态的概念，用以定义融合不同内容的表达形式与修辞方法。在当今大数据时代，我们总说数据是多源异构的：

多源：数据持有方多样化。比如数据来源于问卷调查、GPS追踪、手机定位、用户使用习惯等
异构：数据类型特征差异化。比如统计局每年统计的各类表格数据，以人或地区为点，聚合不同信息的结构化数据，比如以文本、图像、影像、语音为代表的需要分析处理的非结构化数据，比如地理信息、轨迹等时空数据。

在深度学习盛行的今天，单一形态的数据已经不足以支持我们完成一些困难的任务，而多模态机器学习方法更贴近人类认识世界的形式。为了让人工智能在理解我们周围的世界上取得进一步突破，我们利用多模态信息进行解释和推理。多模态机器学习的目的是建立能够从多种模式处理和关联信息的模型。从早期视听语音识别研究到最近对语言和视觉模型的兴趣爆发，多模态机器学习是一个日益重要和具有非凡潜力的，充满活力的多学科领域。

一般情况下，我们说的多模态指的是自然语言、视觉信息（图像、视频）、声音信号。考虑到不同形态数据的差异，多模态机器学习的研究领域给计算机研究者带来了一些独特的挑战。从多模态来源学习提供了捕捉各个模态之间的对应的可能性，并获得对自然现象的深入理解。

首先，介绍一些多模态机器学习的五个挑战，论文地址：https://arxiv.org/pdf/1705.09406.pdf

1. 五个核心技术挑战

1.1 多模态表示（Representation）

多模态表示是以一种利用多种模式的互补性和冗余的方式表示多模态数据，各个模态数据的差异性使得构建这种表示具有挑战性，介绍文中给出的两种表示方法：

联合表示（Joint Representation）：将多个模态的信息映射到同一个多模态空间中。
协同表示（Coordinated Representation）：将各个模态映射到各自的空间，但映射后的向量间或者说是模态间要满足一定的关系约束。

在这里插入图片描述

1.2 模态转换（Translation）

多模态转换也可以称作为映射（Mapping），主要是将一个模态的信息转化或映射为另一个模态的信息。模态转换的难度主要有两点：首先数据是异构的，各个模态的数据结构和特征是不同的；其次，各个模态之间的关系往往是比较主观的，比如翻译学中有很种翻译结果都是被认可的。模态转换大致分为两种类型：example-based和generative。example-based种类的模型在模式之间进行转换一般使用字典， generative模型构建了一个能够产生翻译的模型，这个区别可以从图中直观的感受到。这种区别其实有点类似于非参数和参数机器学习方法之间的区别。

在这里插入图片描述

这部分应用其实最直观的就是机器翻译（Machine Translation），语音翻译（Speech Translation）、图片/视频描述任务（Image/Video Captioning），语音合成任务（Speech Synthesis）。

1.3 模态对齐（Alignment）

模态对齐是从两个甚至多个模态中寻找子成分之间的关系和联系。举一个直观的例子，比如字幕对齐任务、图像语义分割。为了应对这一挑战，我们需要衡量不同模态之间的相似性，并处理可能存在的长期依赖性和模糊性。

1.4 模态融合（Fusion）

模态融合将来自两个或多个模态的信息连接起来，进行目标分类或回归任务。来自不同模态的信息可能具有不同的预测能力和噪声拓朴结构，能够使我们获得 1 + 1 > 2 的意想不到的收益。这也是目前最为广泛的一个MMML方向，很多任务都可以通过多模态的方式去处理，比如视觉-音频识别（Visual-Audio Recognition）、多模态情感分析（Multimodel sentiment analysis）、手机身份认证（Mobile Identity Authentication）等。这里我们主要来说说这个多模态融合，一般多模态融合分为两种：与模型无关的方法，也就是不直接依赖于特定方法的机器学习；基于模型的方法，明确地在其构造中处理融合，比如基于内核的方法、图形模型、神经网络。

1.4.1 与模型无关的方法

在机器学习盛行之前，绝大多数多模融合都是使用模型不可知的方法进行的。这种方法可以分为early（即基于特征的）、late（即基于决策的）和 hybrid融合。不依赖与模型的方法的一个优点是，它们可以使用几乎任何单模分类器或回归器来实现。

early融合在特征提取后立即集成(通常通过简单地连接它们的表示)，可以被看作是多模态研究人员进行多模态表示学习的初步尝试，因为它可以学习利用每个模态的低层特征之间的相关性和交互作用。此外，它只需要单个模型的训练，相比late融合和hybrid融合，训练过程更容易。

而late融合是在每一种模式做出决定(例如，分类或回归)后进行整合，使用了单模的决策值，使用加权、投票、平均等方式进行融合，它允许为每个模式使用不同的模型，因为不同的预测器可以更好地为每个单独的模式建模，提供了灵活性。此外，当一个或多个模式缺失时，它可以更容易地进行预测，甚至可以在没有并行数据时进行训练。然而，late融合忽略了模态之间的低层的交互作用。

最后，hybrid融合结合了early融合的输出和late的每中模态的决策，尝试在一个共同的框架中利用上述两种方法的优点。它已成功地用于多模态speaker识别和多媒体事件检测(MED)。