本人理解:就是添加指示矩阵后把不平衡不完整的变成了不完整,即消灭不平衡然后后面就完全是关于不完整视图的处理了。
摘要:
不同的视图通常具有不同的不完整性,即不平衡的不完整性,这导致强视图(低不完整性视图)和弱视图(高不完整性视图)。不平衡的不完备性使我们不能直接使用以前的方法。本文受有效生物进化理论的启发,设计了一种新的视图进化方案,对强视图和弱视图进行聚类。此外,我们提出了一种基于视图进化的非平衡不完全多视图聚类方法(UIMC),这是第一个有效的非平衡不完全多视图聚类方法。
前言:
不平衡的不完整的多视图数据
对于不完整的多视图数据集,第v个原始视图矩阵(包括缺失和呈现的实例)表示为X^-- (v)∈R^dv×m,其中dv为特征维数,m为实例数。通过从视图矩阵中删除缺少实例的列(即保留这些呈现的实例),我们可以将第v个原始视图矩阵更新为一个新的视图矩阵X(v)∈R^dv×kv,其中kv是呈现的实例的数量(kv <m)。为了表示更新,我们利用指示矩阵M(v)∈R^kv×m,定义为:
多视图子空间聚类MVSC
对于完整的多视图数据集MVSC表示如下,E(v)是它的误差矩阵,L(v) Z是它的拉普拉斯图,Z(v)∈Rm×m是它的子空间矩阵,F为聚类指标矩阵。但是,MVSC只能对完整的多视图数据进行聚类。
生物进化论
生物进化理论是分析不同生物性状对生物种群发展影响的有效方法。“适者生存”理论是由赫伯特·斯宾塞提出的,是生物进化论的里程碑式著作。在此基础上,达尔文提出了达尔文进化论,其核心思想是一代一代的自然选择。给定一个生物种群,自然选择函数可表示如下,式中nt为生物性状数;T(v)为第v个特征矩阵;av是T(v)的比值。
遗传变异通过改变生物性状的比例,推动生物进化。因此,我们可以将(3)改写,其中μ_b是表示可遗传变异的参数,av^-μ_b = av。
分子进化中性理论将可遗传变异分为有利变异、有害变异和中性变异[43]三种。同样,我们将μb分为三种类型:
分子进化中性理论将可遗传变异分为有利变异、有害变异和中性变异[43]三种。同样,我们将μb分为三种类型:如果μb > 1,则对应的性状T(v)是强性状;当0 <μb < 1时,T(v)为弱性状。当一个性状的比例远远小于平均值的1/nt时,这个性状(我们称之为垂死性状)往往会消失。自然选择后,强性状的比值较大,弱性状的比值较小。因此,我们可以形象地将这种选择描述为:“弱肉强食”。
Model
符号
加权MVSC
通过构造拉普拉斯图来桥接不平衡的不完全视图
当直接使用MVSC处理非平衡数据集{X(v)}时,我们将得到这些矩阵大小不同的子空间矩阵{A(v)}。由于这些视图的kv不同,因此很难直接处理视图桥的这些子空间。为了方便视图桥接,我们构造了下面的拉普拉斯图作为视图表示
通过引入分歧函数来调整视图
在不同的视图中对齐相同的实例是桥接不平衡的不完整视图的目标。我们根据集群指示矩阵对齐不同的视图,该矩阵表示实例和集群之间的关系。基于这种关系,我们可以将相似的实例分组到一个集群中。我们假设第v类指标矩阵F(v)是一致类指标矩阵F *的扰动。为了进一步减少扰动的负面影响,我们通过最小化F(v)和F *之间的不一致来使相同的实例在不同的视图中对齐。对于不同的数据集,我们通常需要不同的分歧函数。我们设计了一个可调整的分歧函数d(F *, F(v))如下,随着k的变化,我们可以得到不同的分歧函数。这种可调函数可以有效地提高方案的泛化能力。
通过加权来整合视图
由于强视图比弱视图具有更多的实例和更低的不完整性,因此强视图通常包含更多可用的数据信息并具有更大的贡献。为了充分利用信息进行聚类,我们赋予强视图比弱视图更大的权重(权重越大意味着贡献越大)。为了判断视图v的贡献,我们基于其不完备性设计了如下权重
量化视图变化
每次迭代后,我们可以更新权重wv如下:
我们的加权MVSC的最终模型如下:
数据恢复的低秩表示
定义如下的范数,为了学习更令人满意的低秩表示,把误差矩阵也更换成L2 -norm
低阶表示表示为:
目标函数
总结:
本文提出了一种新的不平衡不完全多视图聚类方法UIMC。据我们所知,它是第一个有效的聚类不同不完备性的多个视图的方法。受生物进化理论的启发,我们提出了视图进化方案来整合这些不平衡的不完整视图进行聚类。每次优化迭代后,强视图的权重增大,弱视图的权重减小。