机器学习中的常见问题——K-Means算法与矩阵分解的等价

最新推荐文章于 2022-08-24 09:15:39 发布

zhiyong_will

最新推荐文章于 2022-08-24 09:15:39 发布

阅读量6.8k

点赞数 3

分类专栏：机器学习，数据挖掘算法文章标签： k-Means 矩阵分解

本文链接：https://blog.csdn.net/google19890102/article/details/51142299

版权

机器学习，数据挖掘算法专栏收录该内容

60 篇文章 498 订阅

订阅专栏

一、K-Means算法的基本原理

K-Means算法是较为经典的聚类算法，假设训练数据集 $X$ 为： $\left \{ \mathbf{x}_1,\mathbf{x}_2,\cdots , \mathbf{x}_n \right \}$ ，其中，每一个样本 $\mathbf{x}_j$ 为 $m$ 维的向量。此时的样本为一个 $m\times n$ 的矩阵：

X m \times n = (x 1 x 2 \dots x n) = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ x 1, 1 x 2, 1 ⋮ x m, 1 x 1, 2 x 2, 2 ⋮ x m, 2 \dots \dots \dots x 1, n x 2, n ⋮ x m, n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ m \times n

$X_{m\times n}=\begin{pmatrix} \mathbf{x}_{1} & \mathbf{x}_{2} & \cdots & \mathbf{x}_{n} \end{pmatrix}=\begin{pmatrix} x_{1,1} & x_{1,2} & \cdots & x_{1,n}\\ x_{2,1} & x_{2,2} & \cdots & x_{2,n}\\ \vdots & \vdots & &\vdots \\ x_{m,1} & x_{m,2} & \cdots & x_{m,n} \end{pmatrix}_{m\times n}$

假设有 $k$ 个类，分别为： $\left \{ C_1,\cdots ,C_k \right \}$ 。k-Means算法通过欧式距离的度量方法计算每一个样本 $\mathbf{x}_{j}$ 到质心之间的距离，并将其划分到较近的质心所属的类别中并重新计算质心，重复以上的过程，直到质心不再改变为止，上述的过程可以总结为：

初始化常数K，随机选取初始点为质心
重复计算以下过程，直到质心不再改变
- 计算样本与每个质心之间的相似度，将样本归类到最相似的类中
- 重新计算质心
输出最终的质心以及每个类

二、K-Means与矩阵分解的等价

2.1、K-Means的目标函数

K-Means的目标使得每一个样本 $\mathbf{x}_{j}$ 被划分到离质心 $\mathbf{u}_i$ 最近的类别中，而质心为：

u i = \sum x j \in C i x j # ( x j \in C i )

$\mathbf{u}_i=\frac{\sum_{\mathbf{x}_j \in C_i}\mathbf{x}_j}{\# \left ( \mathbf{x}_j \in C_i \right )}$

其中， $\sum_{\mathbf{x}_j \in C_i}\mathbf{x}_j$ 表示的是所有 $C_i$ 类中的所有的样本的和， $\# \left ( \mathbf{x}_j \in C_i \right )$ 表示的是类别 $C_i$ 中的样本的个数。

最终使得质心不再改变，这就意味着每一个样本被划分到了最近的质心所属的类别中，即：

m i n \sum i = 1 k \sum j = 1 n z i j ‖ ‖ x j - u i ‖ ‖ 2

$min\; \sum_{i=1}^{k}\sum_{j=1}^{n}z_{ij}\left \| \mathbf{x}_j-\mathbf{u}_i \right \|^2$

其中，样本 $\mathbf{x}_j$ 是数据集 $X_{m\times n}$ 的第 $j$ 列。 $\mathbf{u}_i$ 表示的是第 $i$ 个类别的聚类中心。假设 $M_{m\times k}$ 为聚类中心构成的矩阵。矩阵 $Z_{k\times n}$ 是由 $z_{ij}$ 构成的0-1矩阵， $z_{ij}$ 为：

z i j = {10 if x i \in C i otherwise

$z_{ij}=\begin{cases} 1 & \text{ if } \mathbf{x}_i\in C_i \\ 0 & \text{ otherwise } \end{cases}$

上述的优化目标可以表示成：(在下面会做证明)

m i n ‖ X - M Z ‖ 2

$min\; \left \| X-MZ\right \|^2$

2.2、矩阵分解的等价

2.2.1、优化目标一

对于上述的最小化问题：

m i n \sum i = 1 k \sum j = 1 n z i j ‖ ‖ x j - u i ‖ ‖ 2

$min\; \sum_{i=1}^{k}\sum_{j=1}^{n}z_{ij}\left \| \mathbf{x}_j-\mathbf{u}_i \right \|^2$

则有：

\sum i, j z i j ‖ ‖ x j - u i ‖ ‖ 2 = \sum i, j z i j (x T j x j - 2 x T j u i + u T i u i) = \sum i, j z i j x T j x j - 2 \sum i, j z i j x T j u i + \sum i, j z i j u T i u i

$\begin{matrix} \sum_{i,j}z_{ij}\left \| \mathbf{x}_j-\mathbf{u}_i \right \|^2\\ =\sum_{i,j}z_{ij}\left ( \mathbf{x}_j^T\mathbf{x}_j-2\mathbf{x}_j^T\mathbf{u}_i+\mathbf{u}_i^T\mathbf{u}_i \right )\\ =\sum_{i,j}z_{ij}\mathbf{x}_j^T\mathbf{x}_j-2\sum_{i,j}z_{ij}\mathbf{x}_j^T\mathbf{u}_i+\sum_{i,j}z_{ij}\mathbf{u}_i^T\mathbf{u}_i \end{matrix}$

下面分别对上式中的三项进行计算:

对于 $\sum_{i,j}z_{ij}\mathbf{x}_j^T\mathbf{x}_j$ ：

\sum i, j z i j x T j x j = \sum i, j z i j ‖ ‖ x j ‖ ‖ 2 = \sum j ‖ ‖ x j ‖ ‖ 2 = t r [X T X]

$\begin{align*} \sum_{i,j}z_{ij}\mathbf{x}_j^T\mathbf{x}_j &= \sum_{i,j}z_{ij}\left \| \mathbf{x}_j \right \|^2\\ &= \sum_{j}\left \| \mathbf{x}_j \right \|^2\\ &= tr\left [ X^TX \right ] \end{align*}$

已知： $\sum_{i}z_{ij}=1$ 。

对于 $\sum_{i,j}z_{ij}\mathbf{x}_j^T\mathbf{u}_i$ ：

\sum i, j z i j x T j u i = \sum i, j z i j \sum l x l j u l i = \sum j, l x l j \sum i u l i z i j = \sum j, l x l j (M Z) l j = \sum j \sum l (X T) j l (M Z) l j = \sum j (X T M Z) j j = t r [X T M Z]

$\begin{align*} \sum_{i,j}z_{ij}\mathbf{x}_j^T\mathbf{u}_i &= \sum_{i,j}z_{ij}\sum_{l}x_{lj}u_{li}\\ &= \sum_{j,l}x_{lj}\sum_{i}u_{li}z_{ij}\\ &= \sum_{j,l}x_{lj}\left ( MZ \right )_{lj}\\ &= \sum_{j}\sum_{l}\left ( X^T \right )_{jl}\left ( MZ \right )_{lj}\\ &= \sum_{j}\left ( X^TMZ \right )_{jj}\\ &= tr\left [ X^TMZ \right ] \end{align*}$

对于 $\sum_{i,j}\mathbf{u}_i^T\mathbf{u}_i$ ：

\sum i, j z i j u T i u i = \sum i, j z i j ‖ u i ‖ 2 = \sum i ‖ u i ‖ 2 n i

$\begin{align*} \sum_{i,j}z_{ij}\mathbf{u}_i^T\mathbf{u}_i &= \sum_{i,j}z_{ij}\left \| \mathbf{u}_i \right \|^2\\ &= \sum_{i} \left \| \mathbf{u}_i \right \|^2n_i \end{align*}$

最终：

\sum i, j z i j ‖ ‖ x j - u i ‖ ‖ 2 = t r [X T X] - 2 t r [X T M Z] + \sum i ‖ u i ‖ 2 n i

$\sum_{i,j}z_{ij}\left \| \mathbf{x}_j-\mathbf{u}_i \right \|^2=tr\left [ X^TX \right ]-2tr\left [ X^TMZ \right ]+\sum_{i} \left \| \mathbf{u}_i \right \|^2n_i$

2.2.2、优化目标二

对于上述的优化目标的矩阵写法：

m i n ‖ X - M Z ‖ 2

$min\; \left \| X-MZ\right \|^2$

则有：

‖ X - M Z ‖ 2 = t r [(X - M Z) T (X - M Z)] = t r [X T X] - 2 t r [X T M Z] + t r [Z T M T M Z]

$\begin{align*} \left \| X-MZ\right \|^2 &= tr\left [ \left ( X-MZ \right )^T\left ( X-MZ \right ) \right ]\\ &= tr\left [ X^TX \right ]-2tr\left [ X^TMZ \right ]+tr\left [ Z^TM^TMZ \right ] \end{align*}$

对于 $tr\left [ Z^TM^TMZ \right ]$ ：

t r [Z T M T M Z] = t r [M T M Z Z T] = \sum i (M T M Z Z T) i i = \sum i \sum l (M T M) i l (Z Z T) l i = \sum i (M T M) i i (Z Z T) i i = \sum i ‖ u i ‖ 2 n i

$\begin{align*} tr\left [ Z^TM^TMZ \right ] &= tr\left [ M^TMZZ^T \right ]\\ &= \sum_{i}\left ( M^TMZZ^T \right )_{ii}\\ &= \sum_{i}\sum_{l}\left ( M^TM \right )_{il}\left ( ZZ^T \right )_{li}\\ &= \sum_{i}\left ( M^TM \right )_{ii}\left ( ZZ^T \right )_{ii}\\ &= \sum_{i}\left \| \mathbf{u}_i \right \|^2n_{i} \end{align*}$

因此得证，两种优化目标等价。

2.2.3、求最优的矩阵 $M$

最终的目标是求得聚类中心，因此，对矩阵 $M$ 求偏导数：

\partial \partial M ‖ X - M Z ‖ 2 = \partial \partial M [t r [X T X] - 2 t r [X T M Z] + t r [Z T M T M Z]] = 2 (M Z Z T - X Z T)

$\begin{align*} \frac{\partial }{\partial M}\left \| X-MZ\right \|^2 &= \frac{\partial }{\partial M}\left [ tr\left [ X^TX \right ]-2tr\left [ X^TMZ \right ]+tr\left [ Z^TM^TMZ \right ] \right ]\\ &=2\left ( MZZ^T-XZ^T \right ) \end{align*}$

令其为 $0$ ：