机器学习（八）聚类

最新推荐文章于 2022-04-29 12:00:00 发布

黄昏贩卖机

最新推荐文章于 2022-04-29 12:00:00 发布

阅读量927

点赞数

分类专栏：机器学习文章标签：聚类 K-Means 层次聚类欧氏距离局部最优

本文链接：https://blog.csdn.net/greatcoder/article/details/121613843

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

聚类Clustering

机器学习聚类Clustering

机器学习聚类Clustering

将无标签的数据进行分类，一个好的聚类应满足：

簇内相似度高
簇间相似度低

flat or partitional clustering 扁平的聚类：各分类之间相互独立
hierarchical clustering 层次式聚类

K-Means K均值分类

给定一系列的数据点 $\{ x_1,x_2,x_N\} (x_i \in\mathbb{R}^D)$ ,把N个数据点分到K个集合 ${C_k\}_{k=1,2,...,K}$ 中,使得簇内欧氏距离二次方之和最小。
$\arg\min_{C_k}\sum_{i=1}^k\sum_{x\in C_k}\|x-u_i\|^2$
$u_i$ 是 $C_i$ 内所有点的均值

K-Means 算法

初始化: 产生随机种子点
在每次迭代过程中：
1、将每个点重新分类到，距离最近的中心点所属的簇中（基于欧氏距离）
$C_k = \{ x_i | \|x_i - u_k\|^2 \leq \|x_i-u_{k'}\|^2 ,for \forall k' \neq k \}$
2、更新每一个簇的均值
$u_k = mean(C_k) = \frac{1}{|C_k|}\sum_{x\in C_k}x$
停止迭代：当簇的mean或者loss基本不变时
随机两个种子点
在这里插入图片描述

K-Means 的loss function

$u_1,u_2,...,u_k$ 是 K个簇的均值
$z_{i,k}$ 是一个指示
$z_{i,k} = \left\{\begin{matrix} 1,\quad x_i \in C_k\\ 0, ortherwise \end{matrix}\right.$
$z_i = [z_{i,1}, z_{i,2},...,z_{i,k}]^T$
$\sum_{k=1}^K z_{i,k} = 1$ ,表明一个点智能属于其中的一类。

对xi来说，loss是
$l(\{u_k\}_{k=1,2,...,K}, x_i, z_i) = \sum_{k=1}^Kz_{i,k}\|x_i - u_k\|^2$
将总的所有的点的loss 定义为 K-means 的损失函数
$L(\mu,X,z) = \sum_{i=1}^N\sum_{k=1}^Kz_{i,k}\|x_i - \mu_k\|^2 = \|X-Z\mu\|^2$
在这里插入图片描述
$z_i^T\mu$ 是xi 所属的簇的均值。

上式是一个非凸函数，可能会有许多局部最优
也是一个NP-Hard问题
使用启发式的方法解决
固定u，改变Z使得loss更小
固定Z，改变u使得loss更小
因为有局部最优不同算法可能收敛到不同的局部最优

K-mean 的收敛

在每一步更新u，Z时，目标不会增大
update Z from $Z^{(t-1)}$ to $Z^{(t)}$
$L(\mu^{(t-1)},Z,Z^{(t)}) \leq L(\mu^{(t-1)},X,Z^{(t-1)})$
因为 $Z^{(t)} = \arg\min_Z L(\mu^{(t-1)},X,Z)$

update $\mu$ from $\mu^{(t-1)}$ to $\mu^{(t)}$
$L(\mu^{(t)},Z,Z^{(t-1)}) \leq L(\mu^{(t-1)},X,Z^{(t-1)})$
因为 $\mu^{(t)} = \arg\min_{\mu} L(\mu,X,Z^{(t-1)})$

请添加图片描述

K-means 一些限制

硬分类 hard assignment，一个点要么属于一类，要么完全不属于。
更适合每个簇的大小差不多的情况
当分类的簇是个圆形的表现好，当簇不是圆形的，是个非凸的表现不好。
kernel K-means可以解决非凸的情况。

kernel K-means

层次聚类 Hierarchical Clustering

在这里插入图片描述

度量两个数据点间的距离的方法

给定数据点 $a = (a_1,a_2,..,a_n), b = (b_1,b_2,...,b_n)$

欧氏距离： $\|a-b\|_2 =\sqrt{\sum_i(a_i-b_i)^2}$
欧式距离平方： $\|a-b\|_2……2 =\sum_i(a_i-b_i)^2$
曼哈顿距离： $\|a-b\|_1 = \sum_i|a_i-b_i|$
最大距离： $\|a-b\|_\infty = \max_i|a_i-b_i|$
马氏距离： $\sqrt{(a-b)^TS^{-1}(a-b)}$

如何度量两个集合之间的距离

min-link:会导致cluster非常大
$\min_{x_R\in R,x_S\in S} d(x_R,x_S)$
max-link: 会使得 cluster 小，并且呈圆形

$\max_{x_R\in R,x_S\in S} d(x_R,x_S)$
average-link
$\frac{1}{|R||S|}\max_{x_R\in R,x_S\in S} d(x_R,x_S)$

Flat vs Hierarchical Clustering

flat clustering 产生单个的分割
层次clustering 在不同层次产生不同分割
flat clustering 需要制定簇的数量
层次聚类不需要指定簇的数量
flat 聚类更高效
没有明确的理由说明这两个哪个好那个坏。

黄昏贩卖机

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习（八）聚类

聚类Clustering机器学习聚类ClusteringK-Means K均值分类K-Means 算法K-Means 的loss functionK-mean 的收敛机器学习聚类Clustering将无标签的数据进行分类，一个好的聚类应满足：簇内相似度高簇间相似度低flat or partitional clustering 扁平的聚类：各分类之间相互独立hierarchical clustering 层次式聚类K-Means K均值分类给定一系列的数据点X={x1,x2,xN}(x
复制链接

扫一扫