博主已经更新过很多多模态系列的文章了,专栏传送门:多媒体与多模态专栏。
可以发现多模态虽然效果很好,但需要保证“多个”模态都一定要存在。但是在现实世界中,部分模态的缺失是很常见的,因此不完整/缺失多模态学习(Incomplete Multimodal Learning)任务也十分值得探索。本篇博文将整理这一研究方向中一些不错的文章。
Unified subspace learning for incomplete and unlabeled multi-view data
比较早期的文章,任务是跨模态检索或多模态聚类,主要存在两个问题:
- 不完整。模态数据往往是不完整的,即一些样本的特征集不完整。
- 无标记。由于人工标注的成本很高,大多数数据都没有标记。
因此,作者针对不完整和未标记的挑战提出了一种新颖的子空间学习框架。该模型直接优化了类指标矩阵(class indicator matrix),为不完整的特征集建立了桥梁。具体来说,该模型综合考虑了特征选择、模态间和模态内的相似性保持,用以增强子空间学习。
模型图如上所示,对于不完整的文本和图像模态,会先使用投影矩阵将原始特征投影到类指示符矩阵(class indicator matrix)中,该类指示符矩阵显式地捕获了聚类结构,并充当了潜在空间。 l ( ( X ′ ( g ) , U ( g ) ) , Y ′ ( g ) ) = ∣ ∣ [ X C ( g ) , X ′ ( g ) ] T U ( g ) − [ Y C ; Y ′ ( g ) ] ∣ ∣ F 2 l((X'^{(g)},U_{(g)}),Y'^{(g)})=||[X^{(g)}_C,X'^{(g)}]^TU_{(g)}-[Y^C;Y'^{(g)}]||^2_F l((X′(g),U(g)),Y′(g))=∣∣[XC(g),X′(g)]TU