可靠多模态综述_多模态网络空间可信标识-CSDN博客

本文链接：https://blog.csdn.net/qq_40438523/article/details/120555192

可靠多模态综述

引言
传统多模态学习
可靠多模态学习

参考《可靠多模态学习综述》

引言

协同训练: 多模态学习早期学习方法之一，利用模态间的互补性准则，最大化两个不同模态未标记数据的互一致性
协同正则化：利用模态间的一致性准则，最小化两个不同模态未标记数据的预测差异性来排除不一致的假设
方法统一性：

早期基于互补性准则的协同训练类型方法通过各模态最置信的未标记样本的伪标记信息进行相互教学，本质也可看做潜在标记的一致性。
两类方法都关注利用样本不同模态间的强相关性

近年方法：转而注重学习或者度量模态间的互补信息表示，增强模态的融合性能
挑战：信息缺失、噪声干扰，模态间的强相关性难以满足，主要体现在学习过程中出现的未标记样本伪标记噪声、采样偏差及模态特征表示、模型性能差异，进而导致模态表示强弱以及对齐关联的不一致

模态表示强弱不一致：单模态信息不充分
模态对齐关联不一致：传统多模态学习方法中假设同一样本拥有全量的模态信息，且模态间的关联关系也是事先确定的。实际中多模态数据存在模态缺失问题（样本获取的模态信息非全量信息）

在这里插入图片描述

传统多模态学习

两种基本准则：

互补性：每个模态的数据可能包含其他模态欠缺的信息
一致性：两个模态的一致性和单模态错误率之间的关系

因此最小化两个模型的不一致，也能最小化每个模型的错误率

基于互补性准则的方法

Co-learning
Co-learning是一种半监督的学习方法，对于两种条件独立的模态。若有L个有标记样本和U个无标记的样本
Step1：从U中选取若干个样本构成数据池 $U^*$
Step2：用两个模态的有标记数据构建学习器h1，h2
Step3： $U^*$ 分别在h1和h2上训练得到p个最置信正例和n个最置信负例，再将得到的2p+2h歌数据放到L中重训练
Step4：从U中重新填充2p+2n个样本到数据池 $U^*$

这种方法本身是用来处理多视图问题

Deep co-trade
对于co-traning算法来说，我们需要充分冗余且有两个相互独立的属性的数据。通常情况下我们并没有这样的要求。
因此我们通常还采用Tri-training，主要是一种集成算法的思想（三个臭皮匠赛过诸葛亮），我们对标记数据进行重复采样得到三个训练集，并训练得到三个学习器，每个学习器获得新数据都是通过其他两个学习器投票得到。

ECMSC
实际上上述两种方法都是传统的半监督学习的模式，原本处理的是同一个个体的不同视图。他们仍然属于潜在的标记一致，缺乏学习量化模态间的互补信息。

这里面主要参考的是《Exclusivity-Consistency Regularized Multi-view Subspace Clustering》
在这篇论文中，提到了几个名词：
subspace clustering：子空间聚类，因为高维数据的聚类通常存在很难在所有维度成簇，也由于稀疏性导致每个点之间距离相近。我们提出子空间聚类，通过映射到几个特征子空间内进行聚类，其中子空间的选择和评测标准就成为了比较关键的问题。对于子空间的搜索策略我们有自顶向下和自底向上两种。
spectral clustering：谱聚类，我们把样本所有点看成空间内的点，点与点之间由边连接，距离远的边权值就小，距离近的边权值大。我们最终想要分割这个样本空间为子图间的边权值尽量小，子图内的边权值尽量大。
关于谱聚类需要较为详细的数学说明，参考
（待续）

基于一致性准则的方法

Co-regularization
这也是一种半监督的学习方法，对于两种模态的数据而言，我们分别为他们学习一个学习器，目标函数如下：

其中 $f_1,f_2$ 是两种学习器， $x_i，y_i$ 是有标记数据， $x_j$ 是无标记数据，最后一项则是强迫不同模态在无监督数据上的一致性，而中间两项则是正常的正则化

DCCA
首先是典型相关性分析，我们知道对于两个一位数据X,Y相关性的计算为 $\rho = \frac{Coc(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$ 。
但经常我们处理的数据都是高维度的，因此如何降维成为了一个关键问题。
对于PCA主成分分析而言，降维原则是投影方差最大；
对于LDA线性判别分析而言，降维原则是投影方差同类小，异类大；
对于CCA而言，降维原则是使得之后二者的相关性最大
具体过程参考
对于DCCA，则是用神经网络分别处理多模态，然后将不同模态的特征输出线性投影到共享子空间，最大化模态间的相关性。