【机器学习】K-Means 聚类是特殊的矩阵分解问题

最新推荐文章于 2024-08-09 23:32:16 发布

仙道菜

最新推荐文章于 2024-08-09 23:32:16 发布

阅读量8.4k

点赞数 5

分类专栏：【机器学习&深度学习】游戏编程模式文章标签：机器学习 k-means clustering

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cyh_24/article/details/50408884

版权

游戏编程模式同时被 2 个专栏收录

18 篇文章 16 订阅

订阅专栏

【机器学习&深度学习】

16 篇文章 5 订阅

订阅专栏

【机器学习】K-Means 聚类是特殊的矩阵分解（Matrix Factorization）问题

原文是：《k-Means Clustering Is Matrix Factorization》

本博客是该论文的阅读笔记，不免有很多细节不对之处。

还望各位看官能够见谅，欢迎批评指正。

更多相关博客请猛戳：http://blog.csdn.net/cyh_24

如需转载，请附上本文链接：http://blog.csdn.net/cyh_24/article/details/50408884

论文证明了传统的K-Means算法的目标函数可以被表达成数据矩阵与其低阶数据矩阵之间差异的Frobenius范数。

简要的说，K-Means 聚类其实是一种矩阵分解问题。

K-Means的推导，我想大家都已经很清楚了，这里不细说。它的目标函数，可以定义如下：

\sum i = 1 k \sum j = 1 n z i j | | x j - μ i | | 2

$\sum_{i=1}^k \sum_{j=1}^n z_{ij} ||x_j-\mu_i||^2$

如果能够把目标函数表达成如下形式，那么也就证明了K-Means聚类是特殊的矩阵分解问题。

? = | | X - M Z | | 2

$?=||X-MZ||^2$

? = | | X - X Z T (Z Z T) - 1 Z | | 2

$?=||X-XZ^T(ZZ^T)^{-1}Z||^2$

先不用深究，下文会详细介绍，先注意几个变量的意义：
数据集 $X\in R^{m*n}$ 是向量 $x_i \in R^m$ 的矩阵；
$M\in R^{m*k}$ ，是类中心点 $\mu_i \in R^m$ 的矩阵；
$Z\in R^{k*n}$ ，是二值指示变量 $z_{ij}$ 的矩阵；若 $x_j \in C_i$ ，则 $z_{ij}=1$ ，否则 $z_{ij}=0$ ；

数学符号说明

$x_i$ 表示矩阵 $X$ 的第 $j$ -th列向量（好像与平常的相反了）；
$X$ 的第 $(l,j)$ 的元素可以写成 $x_{lj}$ 或者 $(X)_{lj}$ ；
$||x||$ 表示欧式距离，
$||X||$ 则表示矩阵的 Frobenius 范数，
其Frobenius 范数平方形式定义如下：
$| | X | | 2 = \sum l, j x 2 l j = \sum j | | x j | | 2 = \sum j x T j x j = \sum j (X T X) j j = t r [X T X]$ $||X||^2 = \sum_{l,j}x_{lj}^2 = \sum_j ||x_j||^2 = \sum_j x_j^T x_j = \sum_j (X^TX)_{jj} = tr[ X^T X]$

推导过程

假设，数据集 $X$ 可以分成 $k$ 个类 $C_1,...C_k$ ，分别对应的类中心点是 $\mu_1,...\mu_k$ ；
$z_{ij}$ 是二值指示变量：若 $x_j \in C_i$ ，则 $z_{ij}=1$ ，否则 $z_{ij}=0$ ；
那么，显然可以得到：

\sum i z i j = 1

$\sum_i z_{ij} = 1$

而每行总和刚好是这个类中的样本个数：

\sum j z i j = n i = | C i |

$\sum_jz_{ij}=n_i=|C_i|$

由于 $z_{ji} \in \{0,1\}$ ，所以 $Z$ 的每一列只有一个 $1$ ，所以：

z i j \cdot z i' j = 1 (i = i') o r 0 （ o t h e r w i s e ）

$z_{ij}\cdot z_{i^\prime j}=1\;\;(i=i^\prime)\;\;or\;\;0\;（otherwise）$

因此， $ZZ^T$ 是一个对角矩阵，并且：

(Z Z T) i i' = \sum j (Z) i j (Z T) j i' = \sum j z i j z i' j

$(ZZ^T)_{ii^\prime}=\sum_j(Z)_{ij}(Z^T)_{ji^\prime}=\sum_j z_{ij}z_{i^\prime j}$

= n i, i f i = i'

$=n_i, \;\;if\;i=i^\prime$

= 0, o t h e r w i s e

$=0,\;otherwise$

Step 1: 将目标函数左边展开

此处输入图片的描述

Step 2: 将目标函数中间项展开

接下来，我们看目标函数的中间项。作为矩阵Frobenius范数的平方，它可以按如下方式写：
此处输入图片的描述

从之前的结论中，我们可以快速发现： $T_1=T_4 \;\;and\;\; T_2=T_5$ . 所以，只要 $T_3=T_6$ ，那么我们假设的目标函数的第一个等式就成立了。所以，现在的目标就是证明 $T_3 = T_6$ .
来看一下 $T_6$ ，可以得到：

t r [Z T M T M Z] = t r [M T M Z Z T]

$tr[Z^TM^TMZ] = tr[M^TMZZ^T]$

= \sum i (M T M Z Z T) i i

$=\sum_i(M^TMZZ^T)_{ii}$

= \sum i \sum l (M T M) i l (Z Z T) l i

$=\sum_i\sum_l(M^TM)_{il}(ZZ^T)_{li}$

= \sum i (M T M) i i (Z Z T) i i

$=\sum_i(MTM)_{ii}(ZZ^T)_{ii}$

= \sum i | | μ i | | 2 n i

$=\sum_i||\mu_i||^2n_i$

在上面的推导中，我们用到了 $ZZ^T$ 是对角阵的特性。到此， $T_3=T_6$ 证明完毕，因此，目标函数的第一个等式也就证明完毕了。

Step 3: 消除矩阵 $M$

现在的任务就是证明第二个等式。
回顾一下我们的目的，就是讲目标函数最小化，因为已经证明了第一个等式，所以，其实也就是让 $||X-MZ||^2$ 最小化：

δ δ M | | X - M Z | | 2

$\frac{\delta}{\delta M}||X-MZ||^2$

= δ δ M [t r [X T X] - 2 t r [X T M Z] + t r [Z T M T M Z]]

$=\frac{\delta}{\delta M}[tr[X^TX]-2tr[X^TMZ]+tr[Z^TM^TMZ]]$

= 2 (M Z Z T - X Z T)

$=2(MZZ^T-XZ^T)$

令偏导等于0，可以得到：

M = X Z T (Z Z T) - 1

$M=XZ^T(ZZ^T)^{-1}$

代入目标函数第二个等式，就证明完毕了。

结论

我们在上面用了一大堆令人眩晕的代数表达式，终于说明了K-Means聚类问题可以被理解成是如下的受约束的矩阵分解问题：

目 标 函 数 \sum i = 1 k \sum j = 1 n z i j | | x j - μ i | | 2 等 价 于 m i n Z | | X - X Z T (Z Z T) Z | | 2

$目标函数\; \sum_{i=1}^k \sum_{j=1}^n z_{ij} ||x_j-\mu_i||^2 \;\;等价于\;\;min_Z||X-XZ^T(ZZ^T)Z||^2$

s . t . z i j \in {0, 1}

$s.t.\;\;\;z_{ij}\in\{0,1\}$

\sum j z i j = 1

$\sum_jz_{ij}=1$

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。