谱聚类算法入门教程（三）—— 求f^TLf的最小值

最新推荐文章于 2021-01-04 22:30:36 发布

qiuxy23

最新推荐文章于 2021-01-04 22:30:36 发布

阅读量856

点赞数 3

分类专栏：学习笔记文章标签：谱聚类

本文链接：https://blog.csdn.net/qiuxy23/article/details/82873299

版权

学习笔记专栏收录该内容

36 篇文章 1 订阅

订阅专栏

文章目录

1. 求$f^TLf$的导数
2. $f$ 的定义
3. 求解 $arg \min \limits_{f \in \R^6} f^TLf$
5. 拓展到 k > 2
6. 正则拉普拉斯矩阵
7. RatioCut 和 Ncut

在上一篇博客中，我们知道目标函数变为

\min \limits_{f \in \R^6} f^TLf

，即找到一个

f

，使得

f^TLf

取得最小值

这篇博客将通过求导的方式取得目标函数的最小值。

1. 求 $f^TLf$ 的导数

目标函数的未知量为 $f$ ，那么 $f^TLf$ 的导数可以表示为 $\displaystyle \frac{\partial}{\partial f} f^TLf$ 。

这里为了方便证明，使用一个二维向量作为例子，推广到更高维空间也是一样的，即假设 $f^T = [f_1 \space \space f_2]$ ， $\left[\begin{matrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{matrix}\right]$

故：

$\begin{aligned}\displaystyle \frac{\partial}{\partial f} f^TLf &= \displaystyle \frac{\partial}{\partial f} \left[ \begin{matrix} f_1 & f_2 \end{matrix}\right] \left[\begin{matrix}a_{11} & a_{12} \\ a_{21} & a_{22}\end{matrix}\right] \left[\begin{matrix}f_{1}\\ f_{2}\end{matrix}\right] \\ & = \displaystyle \frac{\partial}{\partial f} \left[ \begin{matrix} f_1 & f_2 \end{matrix}\right] \left[\begin{matrix}a_{11}f_1 + a_{12}f_2 \\ a_{21}f_1 + a_{22}f_2 \end{matrix}\right] \\ & = \displaystyle \frac{\partial}{\partial f} a_{11}f_1^2 + a_{12}f_1f_2 + a_{21}f_1f_2 + a_{22}f_2^2 \\ & = \displaystyle \left[ \begin{matrix}\displaystyle \frac{\partial}{\partial f_1} a_{11}f_1^2 + a_{12}f_1f_2 + a_{21}f_1f_2 + a_{22}f_2^2 \\ \displaystyle \frac{\partial}{\partial f_2} a_{11}f_1^2 + a_{12}f_1f_2 + a_{21}f_1f_2 + a_{22}f_2^2\end{matrix} \right] \\ & = \left[ \begin{matrix}2a_{11}f_1 + a_{12}f_2 + a_{21}f_2 \\ a_{12}f_1 + a_{21}f_1 + 2a_{22}f_2 \end{matrix} \right] \\ & = \displaystyle \left[ \left[ \begin{matrix}a_{11} & a_{12} \\ a_{21} & a{22}\end{matrix}\right] + \left[ \begin{matrix}a_{11} & a_{21} \\ a_{12} & a{22}\end{matrix}\right]\right]\left[ \begin{matrix}f_{1} \\ f_{2} \end{matrix}\right] \\ & = \displaystyle (L+L^T)f \end{aligned}$

根据拉普拉斯矩阵的定义我们可以知道拉普拉斯矩阵是对称矩阵¹，因此 $L^T = L$ ，原式可以转化为：

$\begin{aligned}\displaystyle \frac{\partial}{\partial f} f^TLf &= (L+L^T)f \\ &=2Lf\end{aligned}$

2. $f$ 的定义

在求解目标函数之前，我们回忆一下我们一开始给出的 $f$ 的定义：

$f_i = \begin{cases} \sqrt{\displaystyle \frac{1}{|A|}} & k_i \in A \\ \space \space \space \space \space 0 & k_i \in \bar{A} \end{cases}$

该定义满足： $f^Tf = I$ ， $I$ 为单位矩阵

Frobenius norm(Frobenius 范数)

Frobenius 范数，简称F-范数，是一种矩阵范数，记为 $_F$ 。矩阵 A 的Frobenius范数定义为矩阵A各项元素的绝对值平方的总和，即

$||A||_F = \displaystyle \sqrt{\sum_{i=1}^m\sum_{j=1}^n|a_{i,j}|^2} = \sqrt{tr(A^TA)}$

3. 求解 $\min \limits_{f \in \R^6} f^TLf$

上面关于 $f$ 的定义中，可以知道 $f^Tf = I$ ，故 $f^Tf - I = 0$

$f^TLf$ 的导数（ $\lambda$ 为某个常数）：

$\begin{aligned}\displaystyle \frac{\partial}{\partial f} f^TLf &= \displaystyle \frac{\partial}{\partial f} f^TLf - \lambda(f^Tf-I) \\ &= \displaystyle \frac{\partial}{\partial f}[ f^TLf-\lambda f^Tf + \lambda]\end{aligned}$

由上面第一点的关于导数的讨论中，可以知道：$ \frac{\partial}{\partial f} f^TLf = 2Lf$

故上面的导数可以转化为：

$\begin{aligned}\displaystyle \frac{\partial}{\partial f} f^TLf = 2Lf-\lambda 2f \end{aligned}$

若 $2Lf=\lambda 2f$ ，即 $\lambda f$ ，则导数为0，此时取到极点

根据特征值和特征向量的定义：若 $=\lambda x$ ，则 $x$ 为矩阵 $L$ 的特征向量， $\lambda$ 为特征值

即当 $f$ 为 $L$ 的特征向量时取得极值。

我们再对导数求导，可得： $\displaystyle \frac{\partial^2}{\partial f^2} f^TLf = 2L$ ，因为 $L$ 为拉普拉斯矩阵，根据拉普拉斯矩阵的定义， $L$ 为半正定矩阵，故导数的导数大于0，导数递增，极值即为最小值。

所以， $\min \limits_{f \in \R^6} f^TLf$ 在 $f$ 取最小特征值对应的特征向量时取得最小值。

不过，当 $f$ 取得特征向量的时候，未必满足一开始 $f$ 的定义（最重要的是未必满足约束条件 $f^Tf = I$ ，因为这是推导出最小值的关键），因此通常对 $L$ 的特征向量进行k-means聚类分析，生成一个最接近特征向量的向量。

以我们在教程（二）的简单的例子为例，一个计算特征向量的在线网站

取特征值 5 为例（这里最小的特征值6是最小特征值，不过从特征向量可以看出特征值5的分类更明显），从这6个数（0.3587, 0.3149, 0.3145, -0.4513, -0.5149, -0.4521）的分布可以将其分为两类，前三个为一类，后三个为一类，这符合我们一开始从图上看出来的结果，此时：

$\left[ \begin{matrix} \displaystyle \frac{1}{\sqrt{3}} \\ \displaystyle \frac{1}{\sqrt{3}} \\ \displaystyle \frac{1}{\sqrt{3}} \\ 0 \\ 0 \\ 0 \end{matrix}\right]$

5. 拓展到 k > 2

前面我们的假设一直是 k=2，如果需要不仅分为两类 $A$ 和 $\bar{A}$ ，而是多个聚类，我们可以取 k 个特征向量，然后对这 k 个特征向量组成的矩阵进行k-means聚类分析，原理和上面是类似的。

6. 正则拉普拉斯矩阵

在之前的讨论中，一直使用的是普通的拉普拉斯矩阵，实际情况中，经常使用的是正则拉普拉斯矩阵，可以提高数据之间的可比性。

正则拉普拉斯矩阵的定义：

$L_{sys} = D^{-1/2}LD^{-1/2} = I - D^{-1/2}WD^{-1/2}$

$L_{rw} = D^{-1}L = I - D^{-1}W$

$L_{sys}$ 和 $L_{rw}$ 都是拉普拉斯矩阵的一种。

正则拉普拉斯矩阵的性质：

(λ，u)是 $L_{rw}$ 的特征值和特征向量，当且仅当(λ， $D^{1/2}u$ )是 $L_{sym}$ 的特征值和特征向量

7. RatioCut 和 Ncut

在上面的讨论中，用于衡量聚类分析优异的函数为：

$\displaystyle \sum_{i,j = 1}^{n}w_{i,j}(f_i-f_j)^2$

在实际操作中，为了避免聚类效果不佳，常使用两种方法来聚类分析：RatioCut和Ncut，具体可以参考博客：https://www.cnblogs.com/pinard/p/6221564.html，基本原理和上面的证明过程是一致的，这里就不赘述了，啦啦啦。

拉普拉斯矩阵 ↩︎

qiuxy23

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
谱聚类算法入门教程（三）—— 求f^TLf的最小值

文章目录1. 求$f^TLf$的导数2. $f$ 的定义3. 求解 $arg \min \limits_{f \in \R^6} f^TLf$5. 拓展到 k &gt; 26. 正则拉普拉斯矩阵7. RatioCut 和 Ncut在上一篇博客中，我们知道目标函数变为 argmin⁡f∈R6fTLfarg \min \limits_{f \in \R^6} f^TLfargf∈R6minfTLf...
复制链接

扫一扫