模态:modality
多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。
五大分类
多模态表示学习
联合表示:将多模态信息映射到统一的多模态向量中
协同表示:将多模态中的每个模态分别映射到各自的表示空间,之后再做约束
相关论文:来自 NIPS 2012 的 《Multimodal learning with deep boltzmann machines》
协同表示学习的经典应用:《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models 》利用协同学习到的特征向量之间满足加减算数运算这一特性,可以搜索出与给定图片满足“指定的转换语义”的图片
模态之间的转换
机器翻译:类似将唇部视觉和语音信息转为文本信息以提高准确度
图片描述:给定图片指定的文本表述做关联
语音合成:根据文本信息自动合成一段语音信号
模态转换之间的难点:第一个是结束标志,第二个是主观评判,对于同一个物体的不同解释是有分歧的,一千个人有一千个哈默雷特
异构数据之间的对齐
时间维度的对齐:同一时间刻度下,不同模态需要信息对齐
空间维度的对齐:类似图片语义分割,尝试将图片的每个像素对应到某一种类型标签,实现视觉-词汇对齐。
多模态融合,又叫做多源信息融合,多传感器融合等
原始数据融合,特征数据融合以及决策数据融合
视频--音频融合
多模态情感分析(文本,面部表情,声音之间的融合)
身份认证,
协同学习:协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。类似迁移学习,通过其他数据集上得出的参数,作为起始参数来微调自己的训练模型
显式对齐:LSTM + CNN
隐式对齐:引入注意力机制,允许编码器注重源的子组件部分
存在的问题:
很少有数据集具有显式对齐
模态之间的相似性难以度量
存在多可能的排列