文献阅读(十一):多模态深度学习综述
摘要
多模态深度学习实现过程中的共有问题分为:
模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。
引言
多模态是指两个或者两个以上模态各种形式的组合。
多模态研究分为四个发展时期,即人类行为多模态研究、多模态计算机处理研究、多模态互动研究和多模态深度学习研究。
提出围绕多模态机器学习及在其之后的发展中需要克服的五个挑战: 模态表示、模态传译、模态对齐、模态融合和合作学习。
1. 模态表示
模态表示是多模态深度学习的基础,分为单模态表示和多模态表示。