多模态机器学习简述（Guide to Multimodal Machine Learning）-CSDN博客

前言：本篇博文为译文，翻译自Parth Chokhra 发表在Medium的博文 “Guide to Multimodal Machine Learning”

原博文链接：https://towardsdatascience.com/guide-to-multimodal-machine-learning-b9b4f8e43cf7

原博文撰写时间：2020-09-27

最近从Facebook在Driven Data网举办的厌恶表情包检测挑战赛（Hateful Meme Challenge 2020）关注到多模态学习。该挑战赛是关于如何制造出一种检测厌恶言论的有效工具，以及它如何能够像人们那样理解言论内容。这似乎是一个很酷的挑战，因为它利用文本和图像来分析内容，就像人类所做的那样。让我们深入了解一下多模态机器学习到底是什么。

图1 具有相同文本但不同意义的表情包（Meme）

1. 多模态学习（Multimodal Learning）

多模态是指面向对同一对象，在同一时间，我们通过两种及以上的信息收集方式，获得的两种或两种以上的多种数据（此处为译者对“多模态”的定义，为个人观点，可能有不妥之处）。原博文为（Multimodal means that we have two and or more than two modes of communication through combinations of two or more modes.）模态（Modes）包括书面语言、口头语言以及视觉、听觉、手势、触觉和空间等模式。

为了创造一个与人类相当的人工智能，我们需要人工智能去理解、解释和推理多模态信息。多模态机器学习（Multimodal machine learning）的目的是建立能够处理和关联来自多种模态信息的模型。

为了理解如何处理这个问题，我们必须首先理解在多模态机器学习中需要解决的挑战。

2. 多模态人工智能的挑战（The challenge of Multimodal AI）

表示（Representation）：第一个且最重要的困难是如何表示和结合多种模态的数据，使我们能够利用它们的互补性和冗余性。我们需要明白，通常我们考虑的所有信息模式都指向相同的信息，比如唇读和我们从一个人那里听到的声音代表着相同的东西。但同时使用这两种东西提升了交流的鲁棒性，可帮助我们理解对方想表达什么。所以第一个挑战是我们如何结合多模态数据。语言（文本）通常是符号化的，而听觉和视觉模态则以信号的形式表现出来。我们如何将它们结合起来？

对齐（Alignment）：其次，我们需要从不同的模态来识别子要素（sub-elements）之间的直接关系。让我们通过一个真实的例子来形象化这个过程。我们有一个关于如何完成烹饪的视频，以及包含制作步骤的食谱（subscript）。我们可能想要将食谱中的步骤与正在制作的菜肴视频对齐，以让读者理解这一步到底是如何操作的。这就是所谓的对齐。我们需要考虑如何对齐不同的模式并处理可能存在的长期依赖和歧义?

转换（Translation）：将数据从一种模态转换为另一种模态的过程，这种转换关系通常可以是开放式的，也可以是主观的。在某些时候，我们可能需要将一种形式的信息转换为另一种形式。图片字幕（Image captioning）就是一个很好的例子。但是，描述一幅图像的正确方法有很多，而且一个完美的模态转换可能并不存在。那么，我们如何将数据从一种模态映射到另一种模态呢？

融合（Fusion）：第四个挑战是连接来自两种或两种以上模态的信息进行预测。通常，我们将融合技术分为早期融合（Early Fusion）和晚期融合（Late Fusion）两部分。