COMSC

随缘好不好

已于 2022-05-05 20:20:05 修改

阅读量975

点赞数

分类专栏：聚类文章标签：机器学习聚类

于 2022-04-16 20:21:30 首次发布

本文链接：https://blog.csdn.net/qq_42115919/article/details/124204298

版权

聚类专栏收录该内容

10 篇文章 2 订阅

订阅专栏

原文：Consensus One-step Multi-view Subspace Clustering

创新点：

传统的子空间聚类分为两个步骤。首先是学一个亲和矩阵，也就是原文中的 $Z$ 。这个 $Z$ 就代表了各个数据之间的相似关系。然后再将这个 $Z$ 丢到其他聚类算法，比如kmeans或者谱聚类中去进行聚类的步骤。

这篇文章将两个步骤合二为一了。我们可以直接得到 $Y$ ，即隶属度。

这篇文章的实验精度可以说提升得很明显了，表征学习和聚类过程合二为一，是一个值得研究的方向。

目标函数

首先是标准的基于自表示的子空间分割：
在这里插入图片描述
$Z$ 是亲和矩阵。然后根据 $T h e o r e m 1$ ，理想的亲和矩阵所划分出来的聚类簇数就是其对应的拉普拉斯矩阵的0特征值的个数。一个矩阵的0特征值的个数又等于其维数减去秩。即 $k = n - r a n k (L)$ 整理一下并带上视图数量就是： $rank(L^v) = n − k$

加在目标函数中：
在这里插入图片描述
这个形式不好求解，根据参考文献[39]，整理为以下形式：

这里的 $F$ 是一个表征矩阵，可以代表 $X$ ，由于特征数量从 $d$ 降到了 $k$ ，所以也相当于做了降维处理。这个 $Tr((F^v)^TL^vF^v)$ 不好理解，在另一篇论文中，有作者进行了推导：
在这里插入图片描述

这里的 $H$ 就是 $F$ ， $W$ 是相似度。还原到第一行可以发现这个公式的意义：在 $x$ 转化为 $h$ 后，距离更近的 $x$ 所转化为的 $h$ 应该更相似。再加上正交这个条件，即每个h都应该尽可能用最少的特征进行表示，可以减少特征之间的冗余度。
然后添加下面这一项，求一个全局的表征矩阵：
在这里插入图片描述
下面这一步是整个算法的精华。表征矩阵求出来之后，并不是提取出来再参与聚类，而是通过下面这一项，将聚类过程也加入了目标函数。
我们先去掉两个求和符号：

$Y$ 是隶属度矩阵。
$t_c$ 是一个 $1 * k$ 的向量，该向量只有第 $c$ 个位置的元素为1，其他位置都为 $0$ ，表示簇中心点的坐标。
$F$ 是表征矩阵
$R$ 是旋转矩阵。将 $F$ 在高维空间进行角度旋转，长度不变

隶属度不解释。主要是后面那一项是什么意思？

前面说了，F有个特点，就是每个数据都用尽可能少的特征表示，如果完全正交的话，每个数据只会用一个特征表示。
假如这里有四个三维数据：

$x_1=[1,0,0];$
$x_2=[1,0,0];$
$x_3=[0,1,0];$
$x_4=[0,0,1]$

每个数据都只用了一个特征表示。将数据分为三簇， $t_c$ 就应该有三个：

$t_1=[1,0,0];$
$t_2=[0,1,0];$
$t_3=[0,0,1]$

用肉眼看，很明显 $x_1$ 、 $x_2$ 应该分到 $t_1$ 这一簇， $x_3$ 和 $x_4$ 分别分到 $t_2$ 和t $_3$ 。如果把各个 $t_c$ 和各个数据之间求距离一个距离，显然每个中心和自己对应的数据之间的距离是最小的。 $t_1$ 到 $x_1$ 的距离肯定比到 $x_3$ 小。

那为什么要旋转呢？

因为…
你比如说，下面这个矩阵也是正交矩阵：
在这里插入图片描述
这就需要旋转了。

完整的目标函数：

在这里插入图片描述

这个算法可以一把求出隶属度矩阵 $Y$ ，也就是求出了聚类结果。

随缘好不好

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
COMSC

原文：Consensus One-step Multi-view Subspace Clustering创新点：传统的子空间聚类分为两个步骤。首先是学一个亲和矩阵，也就是原文中的ZZZ。这个ZZZ就代表了各个数据之间的相似关系。然后再将这个ZZZ丢到其他聚类算法，比如kmeans或者谱聚类中去进行聚类的步骤。这篇文章将两个步骤合二为一了。我们可以直接得到YYY，即隶属度。这篇文章的实验精度可以说提升得很明显了，表征学习和聚类过程合二为一，是一个值得研究的方向。目标函数首先是标准的基于自表示的子空
复制链接

扫一扫