在谱聚类中,构造邻接矩阵时,对于每个边的权重需要用高斯核函数来构造,对此需要调节参数
σ
\sigma
σ,嗯嗯…我们知道调参是一件很无意义的事情,鲁棒性不是很好。
那么如何解决这个问题?
聂飞平大佬14年提出了自适应近邻构造图的方法(CAN),Clustering and Projected Clustering with Adaptive Neighbors,接下来我们简单的介绍一下CAN方法。
该算法的含义很简单:“距离较小的数据点成为邻居的可能性较大”这一先验知识的前提下,引入了概率邻居,在局部距离的基础上通过为每个数据点分配自适应最优的邻居学习数据。
设X中的每一个点
x
i
x_{i}
xi 与
x
j
x_j
xj成为邻居的概率为
s
i
j
s_{ij}
sij。若
x
i
x_{i}
xi 与
x
j
x_j
xj 之间的距离
∥
x
i
−
x
j
∥
2
2
\| x_{i}- x_j \|_2^{2}
∥xi−xj∥22越小,则
x
j
x_{j}
xj 成为
x
i
x_i
xi 邻居的概率
s
i
j
s_{ij}
sij越大。
s
i
j
s_{ij}
sij是一个邻居概率,因此,求解
s
i
j
s_{ij}
sij,问题转化为求解如下:
对目标函数进行优化求解,上述公式可以写为:
其中
在这里可能有些同学有些疑问了,目标函数是怎么转换的呢? 推导过程如下,由于时间关系就写在纸张上了。
然后通过拉格朗日和KKT条件进行求解,得到
S
S
S和
γ
\gamma
γ
其中
k
~
\tilde{k}
k~ 代表的是离数据点
x
i
x_i
xi最近的
k
~
\tilde{k}
k~个邻居。
在邻居分配中得到的概率矩阵 S是一个n×n矩阵,可将其看作图论中的邻接矩阵(有时也称相似矩阵),n个数据点作为图的节点,则根据图论中的拉普拉斯矩阵
L
S
=
D
−
S
+
S
T
2
L_S=D-\frac{S+S^T}{2}
LS=D−2S+ST。
由于相似矩阵S是半正定矩阵,在图论中具有如下重要定理。
定理1:相似矩阵S对应的拉普拉斯矩阵
L
S
L_S
LS 特征值为0的重数 c 等于图论中相似矩阵S的连通分量的个数。
因此,
L
S
L_S
LS 的秩
r
a
n
k
(
L
S
)
=
n
-
c
rank(L_S)=n-c
rank(LS)=n-c,那么得到的连通分量的个数刚好为c个,这时的邻居分配是自适
应的理想分配,并且基于S将点分成了c个簇类。
最终,CAN的目标函数如此:
对此公式进行优化求解。
关于公式推导,聂大佬的论文写的很清楚,我在底下也推了一遍,如果有不懂,可以留言,大家一起交流。