《基于视图进化方案的不平衡不完整多视图聚类:弱肉强食》

最新推荐文章于 2024-10-04 22:35:25 发布

W-小饼干

最新推荐文章于 2024-10-04 22:35:25 发布

阅读量1.8k

点赞数 61

文章标签：聚类数据挖掘机器学习

本文链接：https://blog.csdn.net/2301_79917082/article/details/139046968

版权

本人理解：就是添加指示矩阵后把不平衡不完整的变成了不完整，即消灭不平衡然后后面就完全是关于不完整视图的处理了。

摘要：

不同的视图通常具有不同的不完整性，即不平衡的不完整性，这导致强视图(低不完整性视图)和弱视图(高不完整性视图)。不平衡的不完备性使我们不能直接使用以前的方法。本文受有效生物进化理论的启发，设计了一种新的视图进化方案，对强视图和弱视图进行聚类。此外，我们提出了一种基于视图进化的非平衡不完全多视图聚类方法(UIMC)，这是第一个有效的非平衡不完全多视图聚类方法。

前言：

不平衡的不完整的多视图数据

对于不完整的多视图数据集，第v个原始视图矩阵(包括缺失和呈现的实例)表示为X^-- (v)∈R^dv×m，其中dv为特征维数，m为实例数。通过从视图矩阵中删除缺少实例的列(即保留这些呈现的实例)，我们可以将第v个原始视图矩阵更新为一个新的视图矩阵X(v)∈R^dv×kv，其中kv是呈现的实例的数量(kv <m)。为了表示更新，我们利用指示矩阵M(v)∈R^kv×m，定义为:

多视图子空间聚类MVSC

对于完整的多视图数据集MVSC表示如下，E(v)是它的误差矩阵，L(v) Z是它的拉普拉斯图，Z(v)∈Rm×m是它的子空间矩阵，F为聚类指标矩阵。但是，MVSC只能对完整的多视图数据进行聚类。

生物进化论

生物进化理论是分析不同生物性状对生物种群发展影响的有效方法。“适者生存”理论是由赫伯特·斯宾塞提出的，是生物进化论的里程碑式著作。在此基础上，达尔文提出了达尔文进化论，其核心思想是一代一代的自然选择。给定一个生物种群，自然选择函数可表示如下，式中nt为生物性状数;T(v)为第v个特征矩阵;av是T(v)的比值。

遗传变异通过改变生物性状的比例，推动生物进化。因此，我们可以将(3)改写,其中μ_b是表示可遗传变异的参数，av^-μ_b = av。

分子进化中性理论将可遗传变异分为有利变异、有害变异和中性变异[43]三种。同样，我们将μb分为三种类型:

分子进化中性理论将可遗传变异分为有利变异、有害变异和中性变异[43]三种。同样，我们将μb分为三种类型:如果μb > 1，则对应的性状T(v)是强性状;当0 <μb < 1时，T(v)为弱性状。当一个性状的比例远远小于平均值的1/nt时，这个性状(我们称之为垂死性状)往往会消失。自然选择后，强性状的比值较大，弱性状的比值较小。因此，我们可以形象地将这种选择描述为:“弱肉强食”。

Model

符号

加权MVSC

通过构造拉普拉斯图来桥接不平衡的不完全视图

当直接使用MVSC处理非平衡数据集{X(v)}时，我们将得到这些矩阵大小不同的子空间矩阵{A(v)}。由于这些视图的kv不同，因此很难直接处理视图桥的这些子空间。为了方便视图桥接，我们构造了下面的拉普拉斯图作为视图表示

通过引入分歧函数来调整视图

在不同的视图中对齐相同的实例是桥接不平衡的不完整视图的目标。我们根据集群指示矩阵对齐不同的视图，该矩阵表示实例和集群之间的关系。基于这种关系，我们可以将相似的实例分组到一个集群中。我们假设第v类指标矩阵F(v)是一致类指标矩阵F *的扰动。为了进一步减少扰动的负面影响，我们通过最小化F(v)和F *之间的不一致来使相同的实例在不同的视图中对齐。对于不同的数据集，我们通常需要不同的分歧函数。我们设计了一个可调整的分歧函数d(F *， F(v))如下，随着k的变化，我们可以得到不同的分歧函数。这种可调函数可以有效地提高方案的泛化能力。