谱聚类的复杂说明

最新推荐文章于 2023-11-23 21:01:51 发布

蒸土豆的技术细节

最新推荐文章于 2023-11-23 21:01:51 发布

阅读量470

点赞数

本文链接：https://blog.csdn.net/qq_39006282/article/details/107309838

版权

谱聚类做的是在某个距离函数的作用下，提取目标的二阶微分特征，根据特征进行聚类。

步骤：

有N个样本。
根据径向基函数(一种距离度量函数)获得点与点之间的距离关系。它们可以构成一个N×N的相似度对称矩阵W。
将S的每一行元素相加，并将结果放在对角上，获得对角的度矩阵D，尺寸依然是N×N。
获得拉普拉斯矩阵L = D - W。这个做法虽然看起来不像二阶微分，但确实是图的二阶微分，详情看这里拉普拉斯矩阵的含义
计算L的前K个特征值，并获得特征向量。K是你想聚类的类别数。将K个特征向量拼成N×K的特征矩阵S。这一步可以看作是对每个点相较于其他点的特征提取，即第i行就代表第i个点在全局中的特征。
以行为向量，进行 K-means聚类。

谱聚类

类似于混合高斯分布GMM，K-means等聚类方法，在遇到以下这一类数据的时候都会望洋兴叹。
在这里插入图片描述

简单来说，数据不是个凸集。

谱聚类就能很好地解决这类聚类问题。（当然，DBSCAN也能）

原理

谱聚类的思想发源于图。在图中，我们可以很轻易地用cut（切割）的方式（即切割边），使图一分为二，然后说这两部分就是两类数据。而图中的边代表两个节点之间的相似度。
在这里插入图片描述
这是我随便画的一个图。
可以看到我用绿线将这6个节点分为了两派，A和B。
我令 $i, j$ 为边连接的两个点的序号，可以知道相似度
$w_{i,j}=\left\{ \begin{aligned} K(x_i, x_j) && (i,j)∈E\\ 0 &&otherwise \\ \end{aligned} \right.$
其中， $K(x_i,x_j)$ 是计算相似度的函数，一般用高斯核函数。E代表边的集合，(i,j)所在的边在E中.

接下来，我假设我将一个图 $V$ 切割成了 $k$ 份，计算这个图的cut分数：
$cut(A_1, A_2, ..., A_k) = \sum_{i=1}^{k}W(A_i, \overline A_i) \\ = \sum_{i=1}^{k} W(A_i, V) - W(A_i,A_i)$

$c u t (V)$ 计算的是各个子图之间的相似度分数，所以很显然，我们的目标是:
$m i n c u t (V)$
或者说是
$argmin_{A_i...A_k} cut(V)$
也就是说， $c u t (V)$ 就是我们切割图的 $l o s s$ ；最小化子图之间的相关度，就是我们的目标。

Ncut

由于子图节点数的差异，点多的和点少的子图的 $W(A_i, \overline A_i)$ 直接比较是没有意义的，所以最好做个平均，即，将子图的 $W(A_i, \overline A_i)$ 平均到子图内的每个点上。用平均值代表该子图对其他子图的相似度。
但武断地用平均值作为子图的相似度，缺少道理。

我们不如做个normalization。加了normalization的cut被叫做Ncut。

$N c u t$ 具体做法是：
$\sum_{i=1}^{k} \frac {W(A_i, \overline A_i)}{\sum _{i∈A_i}\sum_{j=1}^{N}w_{i,j}}$

增加了一个分母，它是将 $A_i$ 内的所有点相对于其他所有点的相似度加和，代表了 $A_i$ 对其他所有点的相似度。而分子是 $A_i$ 内的所有点相对于除了 $A_i$ 的点的相似度。所以为了压低 $N c u t (V)$ ，必须要求 $A_i$ 自己的内聚性要高，同时对其他子图又有低相似度。

转换

$N c u t (V)$ 套了很多的 $\sum$ 符号。这很恼人。
我们想方设法将它变成矩阵计算的形式，最终想到，计算对角矩阵的trace(迹)正是连加的另一种形式。
所以如下变换：
$tr\begin{pmatrix}\\ \begin {bmatrix} \\ W(A_1, \overline A_1) & ...& &0 \\ 0 & W(A_2,\overline A_2)&...&... \\ ... & ... & ...&0\\ 0 & ...&&W(A_k,\overline A_k) \end{bmatrix} \begin{bmatrix} \\ \sum _{i∈A_1}\sum_{j=1}^{N}w_{i,j}& ...&...&0 \\ 0 & \sum _{i∈A_2}\sum_{j=1}^{N}w_{i,j}&...&... \\ ... & ...&...&0 \\ 0&...&...&\sum _{i∈A_k}\sum_{j=1}^{N}w_{i,j} \\ \end{bmatrix}^{-1} \end{pmatrix}$

请自己看懂上面的式子，至关重要。
我们将变换简写为 $tr(OP^{-1})$
暂时搁置 $O$ 矩阵， $P$ 矩阵的化简比较简单。

P的转换

首先新建一个值 $Y=[y_1,y_2,...,y_n]$ Y的尺寸是(k×n), k是类别数量，n是样本数量。
所以有 $YY^T=\begin {bmatrix} y_1,y_2,...,y_n\\ \end{bmatrix} \begin {bmatrix} y_1\\ y_2\\ ...\\ y_n\\ \end{bmatrix}$ $YY^T$ 尺寸为(k×k)。它的计算结果是个对角矩阵，每个在(i,i)上的对角元素都代表着n个样本中属于i类的有几个。写成矩阵形式，就是 $YY^T=\begin {bmatrix} \\ \sum_{i∈A_1} 1 & ...& &0 \\ 0 & \sum_{i∈A_2} 1&...&... \\ ... & ... & ...&0\\ 0 & ...&&\sum_{i∈A_k} 1) \end{bmatrix}$ 这个形式和矩阵 $P$ 太像了，只是缺少了 $d_i$ ，但不要紧，接下来这个 $YDY^T=P$ $D=\begin{bmatrix} d_1&&&&\\ &d_2&&\\ &&...\\ &&&d_n\\ \end{bmatrix}=diag\begin{pmatrix}\begin{bmatrix} w_{11}&...&...&w_{1n}&\\ ...&...&...&...\\ ...&...&...&...\\ w_{n1}&...&...&w_{nn}\\ \end{bmatrix}\begin{bmatrix}1\\ 1\\ ...\\ 1\\ \end{bmatrix}\end{pmatrix}$ 就完全成立了。

O的转换

$W(A_i, \overline A_i)=W(A_i, V)-W(A_i, A_i)$
$W(A_i, V)=YDY^T$ ,这是已经有的了。
对于后者，我们可以近似地把它写成:
$W(A_i, A_i) ≈ YWY^T$ 注意注意，这里需要仔细理解。 $W(A_i, A_i)$ 是个对角矩阵；由于 $W$ 不是对角矩阵， $YWY^T$ 不是对角矩阵。为什么可以用后者替代前者？
因为 $W(A_i, V)$ 是对角矩阵，两者相减，会保留 $W(A_i, A_i)$ 的非对角数据。但这些数据在求 $t r a c e$ 时没有任何用处， $t r a c e$ 只计算对角数值的和。所以如此替换也不会对结果产生影响。
所以现在有 $W(A_i, \overline A_i)=W(A_i, V)-W(A_i, A_i)=YDY^T-YWY^T=YLY^T$ 这才是拉普拉斯矩阵L产生的原因。

目标函数

$Y = \argmin_Y tr(YLY^T·(YDY^T)^{-1})$

蒸土豆的技术细节

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
谱聚类的复杂说明

谱聚类做的是在某个距离函数的作用下，提取目标的二阶微分特征，根据特征进行聚类。步骤：有N个样本。根据径向基函数(一种距离度量函数)获得点与点之间的距离关系。它们可以构成一个N×N的相似度对称矩阵W。将S的每一行元素相加，并将结果放在对角上，获得对角的度矩阵D，尺寸依然是N×N。获得拉普拉斯矩阵L = D - W。这个做法虽然看起来不像二阶微分，但确实是图的二阶微分，详情看这里拉普拉斯矩阵的含义计算L的前K个特征值，并获得特征向量。K是你想聚类的类别数。将K个特征向量拼成N×K的特征矩阵S。这一
复制链接

扫一扫