Andrew Ng机器学习课程笔记（十二）之无监督学习之K-means聚类算法

最新推荐文章于 2021-08-20 18:40:39 发布

danerli

最新推荐文章于 2021-08-20 18:40:39 发布

阅读量352

点赞数

分类专栏：机器学习人工智能机器学习——基础篇

本文链接：https://blog.csdn.net/danerer/article/details/80260753

版权

机器学习同时被 3 个专栏收录

21 篇文章 2 订阅

订阅专栏

机器学习——基础篇

19 篇文章 1 订阅

订阅专栏

人工智能

17 篇文章 0 订阅

订阅专栏

Preface
Unsupervised Learning
K-means聚类算法
- 算法内容
- 收敛验证

Preface

Unsupervised Learning（无监督学习）
K-means聚类算法

Unsupervised Learning

我们以前介绍的所有算法都是基于有类别标签的数据集，当我们对于没有标签的数据进行分类时，以前的方法就不太适用了。我们对于这样的数据集的分类叫做，聚类。对于对于这样的数据集的学习算法叫做，无监督学习。

K-means聚类算法

K-means聚类算法的目标就是将给定的数据集分成 $k$ 类。（ $k$ 由我们自己指定）

算法内容

随机选取n个聚类中心， $\mu_1,\mu_2,...,\mu_k \in R^n$ 。
重复下面过程直到收敛 {
对于每一个样本 $i$ ，计算其应该属于的类：
$\begin{aligned} c^{(i)} := arg min_{j} | | x^{(i)} - μ_{j} | |^{2} \end{aligned}$ $\begin{aligned} c^{(i)}: =\text{arg}\;\;\underset{j}{\text{min}}\;\; ||x^{(i)}-\mu_j||^2 \end{aligned}$
对于每一个聚类 $j$ ，计算属于的类的聚类中心：
$\begin{aligned} μ_{j} := \frac{\sum_{i = 1}^{m} 1 {c^{(i)} = j} x^{(i)}}{\sum_{i = 1}^{m} 1 {c^{(i)} = j}} \end{aligned}$ $\begin{aligned} \mu_j: =\frac{\sum_{i=1}^m \;\; 1\{c^{(i)}=j\}x^{(i)}}{\sum_{i=1}^m \;\; 1\{c^{(i)}=j\}} \end{aligned}$
}

在上述算法过程中， $c^{(i)}$ 表示样本 $i$ 到聚类中心点集合的最小值（表示为样本 $i$ 属于取得最小值的那个聚类中心点）； $u_j$ 表示为聚类中心，即为属于这个的所有样本的均值。

下图为选择k=2的聚类过程：
这里写图片描述

收敛验证

K-means 算法面对有一个重要问题时如何保证收敛，在上述算法内容中强调结束条件就是收敛，所以证明K-means 算法可以收敛至关重要。
首先，我们定义畸变函数（distortion function）：

J (c, μ) = \sum i = 1 m | | x (i) - μ c (i) | | 2

$\begin{aligned} J(c,\mu) =\sum_{i=1}^m\;\; ||x^{(i)}-\mu_{c^{(i)}}||^2 \end{aligned}$

J函数表示每个样本点到其质心的距离平方和。K-means是要将J调整到最小。假设当前J没有达到最小值，那么首先可以固定每个簇中心 $\mu_j$ ，调整每个样例的所属的类别 $c(i)$ 来让J函数减少，同样，固定 $c(i)$ ，调整每个簇中心 $\mu_j$ 也可以使J减小。这两个过程就是内循环中使J单调递减的过程。当J递减到最小时， $\mu$ 和 $c$ 也同时收敛。（在理论上，可以有多组不同的 $\mu$ 和 $c$ 值能够使得J取得最小值，但这种现象实际上很少见）。其实整体来看，这个算法就是坐标上升算法。

如果畸变函数J是非凸函数，意味着我们不能保证取得的最小值是全局最小值，也就是说k-means对簇中心初始位置的选取比较敏感，但一般情况下k-means达到的局部最优已经满足需求。但如果你怕陷入局部最优，那么可以选取不同的初始值跑多遍k-means，然后取其中最小的J对应的 $\mu$ 和 c <script type="math/tex" id="MathJax-Element-2116">c</script> 输出。

danerli

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Andrew Ng机器学习课程笔记（十二）之无监督学习之K-means聚类算法

PrefaceUnsupervised LearningK-means聚类算法算法内容收敛验证PrefaceUnsupervised Learning（无监督学习） K-means聚类算法Unsupervised Learning我们以前介绍的所有算法都是基于有类别标签的数据集，当我们对于没有标签的数据进行分类时，以前的方法就不太适用了。我们对于这...
复制链接

扫一扫

专栏目录