论文阅读“Robust multi-view clustering with incomplete information”

论文标题

Robust multi-view clustering with incomplete information

论文作者、链接

作者:Yang, Mouxing and Li, Yunfan and Hu, Peng and Bai, Jinfeng and Lv, Jian Cheng and Peng, Xi

链接:Robust Multi-view Clustering with Incomplete Information | IEEE Journals & Magazine | IEEE Xplore

代码:

GitHub - XLearning-SCU/2022-TPAMI-SURE: PyTorch implementation for Robust Multi-view Clustering with Incomplete Information (TPAMI 2022).


Introduction逻辑(论文动机&现有工作存在的问题)

多视图聚类(Multi-view Clustering,MvC),目的是从多视图数据中学习到通用的特征表达,然后在这些特征表达上进行聚类——MvC依赖于两个假设(1)视图一致性,如图1(a)和(2)实例完全性——在数据收集和数据传输的过程中,常常会出现数据丢失导致上述两个假设不成立——因此出现了所谓的部分视图未对齐问题(Partially View-unaligned Problem,PVP)和部分样本缺失问题(Partially Sample-missing Problem ,PSP

别的算法通过现有的视图恢复缺失的视图,来解决PSP问题——与PSP问题不同的是,PVP问题很少收到关注——一个解决PVP问题的方法是使用匈牙利算法Hungarian algorithm )来对数据进行重新对齐,最后在对齐的数据上进行多视图聚类——有研究将匈牙利算法重新定义为一个神经模块,从而可以同时执行实例级数据对齐和表示学习——但现有方法往往只能单独处理PVP,或者PSP问题,不能同时处理

如图1(d)所示,对于每一个样本,框架目标是将其在类别层级确定交叉视图的对应项,即,在类别层级建立跨视图对应关系。显然,这过程可以很自然的解决PVP问题,并且在进一步探索相关性的过程中同时解决PSP问题。本文将这两个解决方法分别记为类别级对齐(Category-level Alignment ,CA)和类别级归责(Category level Imputation,CI),两者之间的不同之处在于,CA的目标是识别一个对等物,而CI的目标是识别多个对等物。建立相关性之后,CA可以通过将样本x_i^{(1)}和其对应的样本x_j^{(2)}对齐来解决PVP问题(如图1(e)所示);相似的,CI可以通过x_i^{(2)}k个对应样本恢复缺失的样本\hat{x}_i^{(1)}解决PSP问题

于是,基于上述观察,本文提出了一个同时解决PVP和PSP问题的方法,即robuSt mUlti-view clusteRing with incomplEte information (SURE),目标是学习类别级的相似性和建立跨视图的相关性,通过一个噪音鲁棒的对比学习算法。SURE将对齐的视图当做正样本对,然后在同一个样本的不同视图中随机构建负样本对。但是,这种负样本的构建方法中,会错误的将同一类下的样本视为负样本,即假阴性样本对(false-negative pairs,FNPs)。为了解决假阴性的问题提出了噪音鲁棒的对比损失

论文核心创新点

(1)提出同时解决PSP和PVP问题的算法

(2)提出了噪音鲁棒的对比损失


相关工作

多视图聚类

对比学习

含噪标签的学习

作为扩展论文,相比起上文的不同:(1)动机不同(2)损失函数不同(3)模型架构不同


论文方法

目标问题公式化Problem Formulation

定义1:不完全信息Incomplete Information

对于一个多视图数据集\{\bold{X}^{(v)}\}^V_{v=1}=\{​{\bold{x}_1^{(v)},\bold{x}_2^{(v)},\dots,\bold{x}_{N_x}^{(v)}}\}^V_{v=1},由\left\{\mathbf{S}^{(v)}\right\}_{v=1}^{V}=\left\{\mathbf{s}_{1}^{(v)}, \mathbf{s}_{2}^{(v)}, \ldots, \mathbf{s}_{N_{s}}^{(v)}\right\}_{v=1}^{V}\left\{\mathbf{W}^{(v)}\right\}_{v=1}^{V}=\left\{\mathbf{w}_{1}^{(v)}, \mathbf{w}_{2}^{(v)}, \ldots, \mathbf{w}_{N_{w}}^{(v)}\right\}_{v=1}^{V}构成,其中,V是视图的数目,N_x=N_s+N_w代表实例的数量,\left\{\mathbf{S}^{(v)}\right\}_{v=1}^{V}/\left\{\mathbf{W}^{(v)}\right\}_{v=1}^{V}代表没有/有PVP和PSP的数据。

定义2:部分视图未对齐问题Partially View-unaligned Problem (PVP)

当有\sum_{v_{1}}^{V} \sum_{v_{2} \neq v_{1}}^{V} I\left(\mathbf{w}_{i}^{\left(v_{1}\right)}, \mathbf{w}_{i}^{\left(v_{2}\right)}\right)<V(V-1), \forall i \in\left[1, N_{w}\right]的时候,数据集{\bold{X}^{(v)}}^V_{v=1}是部分对齐的。其中I(a,b)是指示函数,当样本a,b属于同一个实例的时候,函数值为1

定义3:部分视图缺失问题Partially Sample-missing Problem (PSP)

当有1 \leq\left|\left\{\mathbf{w}_{i}^{(v)}\right\}_{v=1}^{V}\right|<V, \forall i \in\left[1, N_{w}\right]的时候, 数据集{\bold{X}^{(v)}}^V_{v=1}是部分缺失的,其中|\cdot|是缺失视图的数量

定义4:类别级别识别Category-level Identification

对于样本\bold{x}^{(v_1)}_i,目标是使其与类别相同的另一个视图\bold{x}^{(v_2)}_j识别,即:

 其中,C(a,b)是指示函数,当a,b同属于一个类别的时候,值为1,K为每一个类别下的样本数目。

为了减小甚至消除噪音标签的影响,设计了一个噪音鲁棒模块,配上了噪音鲁棒对比损失\mathcal{L}^{ncl}。为了维持学到的特征的有效性,进一步引入多功能损失\mathcal{L}^{ver},于是全局损失为:


噪音鲁棒的对比学习

为了减轻假阴性样本对的影响,提出了如下噪音鲁棒的对比损失:

 其中N代表对比对的数量,对于正/负样本对有Y=0/1\mathcal{L}_i^{pos},\mathcal{L}_i^{neg}分别由正/负样本进行梯度贡献。

对于一个正样本对(s_i^{(1)},s_i^{(2)}),SURE的目标是在潜在空间中,最小化其之间的距离,通过以下公式:

 其中f_1,f_2分别代表两个针对具体视图进行特征提取的神经网络。

简单地对\mathcal{L}_i^{neg}的优化,会导致模型最后得到琐碎解,于是添加下面的对比项来避免模型崩塌,即:

 其中m是一个阈值,使得负样本的距离比较的大。将\mathcal{L}_i^{pos},\mathcal{L}_i^{neg}的损失函数结合起来,得到了一个孪生网络的简单损失函数,即:

 如图3(a,b)所示,上述的简单损失无法处理含噪音的标签,因为无法区分真/假阴性样本对,最终导致性能下降。为此,添加了FNPs的鲁棒性,提出了如下的噪音鲁棒的对比项,即,

 在不同的数据集中,阈值m的取值也会有所不同。为了避免繁琐的参数选择,我们提出在初始状态时对每个数据集自适应计算m,即:

 其中,N_p,N_n分别代表正/负样本的数量。m在网络初始化之后只计算一次,并且在训练过程中固定住。

接下来解释为什么提出的 噪音鲁棒对比项 可以防止网络拟合FNPs,甚至逆转错误的优化方向。

画出关于\mathcal{L}^{ctr},\mathcal{L}^{neg} 的损失表面。相比起简单的损失项,可见优化 噪音鲁棒项,不是单调的增加负d>m对的距离

理论1:本文提出的噪音鲁棒项不是单调的

理论2:优化逆转。噪音鲁棒项的梯度方向,比起简单的损失,在0<d<m/3的区间中是相反的。

理论3:慢优化。噪音鲁棒项的梯度方向,比起简单的损失,在m/3<d<m的区间中梯度下降速度更慢。

 根据理论2和3,对于任何的FNPs在(0,m/3)的区间里,SURE可以通过逆转梯度来正确的减小距离;在(m/3,m)的区间中,SURE可以减小多余的距离增量,避免网络对FNPs的过拟合

值得注意的是,虽然的噪声鲁棒项可以赋予SURE对FNPs的鲁棒性,但它也可能阻碍网络拟合TNPs。为了解决FNPs的鲁棒性和TNPs的优化之间的矛盾,我们采用了两阶段优化方案。在热身阶段,网络使用简单的损失\mathcal{L}^{van}来进行热身学习,直到负样本的距离比m要大,导致是对FNPs进行拟合而不是对抗。结果,大量的TNPs会有一个距离d>m,当大多数FNPs落入区间d<m的时候。噪音鲁棒损失主要影响FNPs而不是TNPs。热身阶段结束后,在第二阶段,使用噪声鲁棒的对比损失。在这个阶段中,大部分FNPs会落到0<d<m/3或者m/3<d<m的范围,它们的距离会下降或是缓慢上升。含噪音的标签的影响会被减小甚至消除。

充分保留多功能学习Sufficiency-preserving Versatile Learning

由于对比学习可能会过分强调视图之间的一致性,我们进一步提出了一个通用的学习模块,以鼓励共同表征也保持充足的信息。

定义5:多视图表示的充分性。对于第i个样本s_i^{(v)}h_i^{(v)}记为其具体视图的特征表达,h_i记为其的通用特征表达。当\forall v \in[1, V]的时候,h_i是充分的,s_i^{(v)}h_i通过映射\phi(\cdot)的重构结果

 因此,为了保持已学表征的充分性,我们提出了下列通用损失:

 其中,g_v是第v个视图的解码器,[\cdot,\cdot]代表concatention操作。

类别层次对齐与归责Category-level Alignment and Imputation

当建立视图之间的相关性之后,在推理阶段,设计两个策略来应对PVP和PSP问题。

定义6:类别层次对齐(Category-level Alignment ,CA)。对于视图v_1的每一个样本x_i^{v_1},CA将其与其在视图v_2对应的视图x_j^{v_2}对齐,即

 定义7:类别层次归责(Category-level Imputation ,CI)。CI通过其对应的伙伴\hat{x}_j^{(v_1)}的权值求和,输入缺失视图\hat{x}_i^{(v_1)}

其中,p_{ij}是权重参数,求和为1,\mathcal{E}^{v_1}_i是k个可观察对等体的交叉视图和类别内对等体的索引集合,即:


消融实验设计

两个损失的效果对比

不同的非对齐策略

缺失率的消融


一句话总结

相比起会议论文,结构不一样,分析过程相似

论文好句摘抄(个人向)

(1)it is unknown how to simultaneously conquer them using a unifified framework.

(2)The augmented samples of the same instance are defifined as positive, while the others are considered as negative.

自动增益控制(Automatic Gain Control,简称AGC)和多样式训练(Multi-Style Training)对于稳健小体积的有着重要意义。 首先,自动增益控制(AGC)是一种技术,可以自动调整信号的增益,以确保信号在传输过程中保持适当的强度。在语音识别和音频处理中,AGC可以有效地处理各种输入信号的音量差异,使其更适合于后续的处理过程。通过调整增益,AGC可以提高信号质量、减少噪音干扰,从而使得小体积系统更加稳健。 其次,多样式训练(Multi-Style Training)是一种训练方法,通过使用大量不同风格和语调的语音样本来增强语音识别系统的鲁棒性。传统的语音识别系统通常只在标准风格的语音上进行训练,导致在其他风格的语音输入时识别率下降。而采用多样式训练方法,系统可以学习到更广泛的语音样式,使得在各种语音输入情况下都能取得较好的识别效果。对于小体积的系统来说,多样式训练可以提高系统的鲁棒性,减少输入多样性带来的挑战。 综上所述,自动增益控制和多样式训练对于稳健小体积系统的重要性体现在它们能够提高信号质量、减少噪音干扰,并且增加系统对各种不同语音风格的适应能力。这些技术的应用可以使得小体积系统在不同环境和语音输入情况下都能取得较好的效果,提高用户体验和系统的实用性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值