文献阅读(二):Multimodal Machine Learning: A Survey and Taxonomy
- 题目——多模态机器学习:综述与分类
- 出处:IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 41, NO. 2, FEBRUARY 2019
Abstract
多模态机器学习的目的是建立能够从多种模式处理和关联信息的模型。本文不再关注具体的多模态应用,而是综述了多模态机器学习本身的最新进展。我们超越了典型的早期和晚期融合分类,并确定了多模态机器学习面临的更广泛的挑战,即:表示、翻译、对齐、融合和协同学习。
- 表示、翻译、对齐、融合和协同学习——representation, translation, alignment, fusion, and co-learning.
1. Introduction
在本文中,我们确定并探索了围绕多模态机器学习的五个核心技术挑战。
- 表示:学习如何以一种利用多模态的互补性和冗余的方式来表示和总结多模态数据。(多模态数据的异构性)
- 翻译:如何将数据从一种模式转换为另一种模式。(不仅数据是异构的,而且模式之间的关系往往是开放式的或主观的。)
- 对齐:确定来自两种或两种以上不同模式的(分)要素之间的直接关系。(我们需要衡量不同模式之间的相似性,并处理可能的长期依赖性和模糊性。)
- 融合。将来自两个或多个模式的信息连接起来以执行预测。
- 协同学习。在模式、它们的表征和它们的预测模型之间转移知识边缘。协同学习探索如何从一种模式学习知识可以帮助计算模型训练在不同的模式。当一种方式的资源有限时(例如注释