参考《可靠多模态学习综述》
引言
- 协同训练: 多模态学习早期学习方法之一,利用模态间的互补性准则,最大化两个不同模态未标记数据的互一致性
- 协同正则化:利用模态间的一致性准则,最小化两个不同模态未标记数据的预测差异性来排除不一致的假设
- 方法统一性:
- 早期基于互补性准则的协同训练类型方法通过各模态最置信的未标记样本的伪标记信息进行相互教学,本质也可看做潜在标记的一致性。
- 两类方法都关注利用样本不同模态间的强相关性
- 近年方法:转而注重学习或者度量模态间的互补信息表示,增强模态的融合性能
- 挑战:信息缺失、噪声干扰,模态间的强相关性难以满足,主要体现在学习过程中出现的未标记样本伪标记噪声、采样偏差及模态特征表示、模型性能差异,进而导致模态表示强弱以及对齐关联的不一致
- 模态表示强弱不一致:单模态信息不充分
- 模态对齐关联不一致:传统多模态学习方法中假设同一样本拥有全量的模态信息,且模态间的关联关系也是事先确定的。实际中多模态数据存在模态缺失问题(样本获取的模态信息非全量信息)
传统多模态学习
- 两种基本准则:
- 互补性:每个模态的数据可能包含其他模态欠缺的信息
- 一致性:两个模态的一致性和单模态错误率之间的关系
因此最小化两个模型的不一致,也能最小化每个模型的错误率
- 基于互补性准则的方法
- Co-learning
Co-learning是一种半监督的学习方法,对于两种条件独立的模态。若有L个有标记样本和U个无标记的样本
Step1:从U中选取若干个样本构成数据池 U ∗ U^* U∗
Step2:用两个模态的有标记数据构建学习器h1,h2
Step3: U ∗ U^* U∗分别在h1和h2上训练得到p个最置信正例和n个最置信负例,再将得到的2p+2h歌数据放到L中重训练
Step4:从U中重新填充2p+2n个样本到数据池 U ∗ U^* U∗
这种方法本身是用来处理多视图问题
- Deep co-trade
对于co-traning算法来说,我们需要充分冗余且有两个相互独立的属性的数据。通常情况下我们并没有这样的要求。
因此我们通常还采用Tri-training,主要是一种集成算法的思想(三个臭皮匠赛过诸葛亮),我们对标记数据进行重复采样得到三个训练集,并训练得到三个学习器,每个学习器获得新数据都是通过其他两个学习器投票得到。
- ECMSC
实际上上述两种方法都是传统的半监督学习的模式,原本处理的是同一个个体的不同视图。他们仍然属于潜在的标记一致,缺乏学习量化模态间的互补信息。
这里面主要参考的是《Exclusivity-Consistency Regularized Multi-view Subspace Clustering》
在这篇论文中,提到了几个名词:
subspace clustering:子空间聚类,因为高维数据的聚类通常存在很难在所有维度成簇,也由于稀疏性导致每个点之间距离相近。我们提出子空间聚类,通过映射到几个特征子空间内进行聚类,其中子空间的选择和评测标准就成为了比较关键的问题。对于子空间的搜索策略我们有自顶向下和自底向上两种。
spectral clustering:谱聚类,我们把样本所有点看成空间内的点,点与点之间由边连接,距离远的边权值就小,距离近的边权值大。我们最终想要分割这个样本空间为子图间的边权值尽量小,子图内的边权值尽量大。
关于谱聚类需要较为详细的数学说明,参考
(待续)
- 基于一致性准则的方法
- Co-regularization
这也是一种半监督的学习方法,对于两种模态的数据而言,我们分别为他们学习一个学习器,目标函数如下:
其中 f 1 , f 2 f_1,f_2 f1,f2是两种学习器, x i , y i x_i,y_i xi,yi是有标记数据, x j x_j xj是无标记数据,最后一项则是强迫不同模态在无监督数据上的一致性,而中间两项则是正常的正则化
- DCCA
首先是典型相关性分析,我们知道对于两个一位数据X,Y相关性的计算为 ρ = C o c ( X , Y ) D ( X ) D ( Y ) \rho = \frac{Coc(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρ=D(X)D(Y)Coc(X,Y)。
但经常我们处理的数据都是高维度的,因此如何降维成为了一个关键问题。
对于PCA主成分分析而言,降维原则是投影方差最大;
对于LDA线性判别分析而言,降维原则是投影方差同类小,异类大;
对于CCA而言,降维原则是使得之后二者的相关性最大
具体过程参考
对于DCCA,则是用神经网络分别处理多模态,然后将不同模态的特征输出线性投影到共享子空间,最大化模态间的相关性。
- MDL
多模态深度网络MDL共享隐空间表示学习可以自然拓展为两模态以上的多模态表示学习
通过自动编码网络进行模态隐空间表示学习
可靠多模态学习
实际上,各模态信息差异性较大,呈现出不均衡性,其强相关性很难保证,主要两个挑战:表示强弱不一致、对齐关联不一致
图文对呈现不同程度的不匹配,表示强弱不一致。
也例如指纹信息丰富,受遮挡的人脸信息较难区分。
上面左图则为样本模态缺失问题(无文本模态),解决方法是用现有数据进行跨模态补齐,并进行后续聚类、分类操作
右图则是非平行模态信息,即对齐关联缺失,解决方法是利用潜在一致的标记信息简历模态间隐含关联,进行辅助学习、跨模态映射。(对齐就是例如电影情节对应剧本的哪一段)
- 针对表示强弱不一致的方法
(待续,感觉后续这篇中文综述以半监督多视图的内容为主,换另一篇经典的英文综述感觉较好)