26.K-均值算法的优化目标、随机初始化、聚类数的选择

最新推荐文章于 2023-06-21 16:47:07 发布

WuJiaYFN

最新推荐文章于 2023-06-21 16:47:07 发布

阅读量1k

点赞数 1

分类专栏：机器学习(吴恩达机器学习笔记——持续更新中) 文章标签：聚类均值算法算法机器学习人工智能

本文为WJiaJiaBest博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明

本文链接：https://blog.csdn.net/qq_44749630/article/details/126144864

版权

机器学习(吴恩达机器学习笔记——持续更新中) 专栏收录该内容

28 篇文章 20 订阅

订阅专栏

一、K-均值算法的优化目标

K-均值最小化问题，是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和
K-均值的代价函数（又称畸变函数 Distortion function）为：

$J(c^{(1)},...,c^{(m)},μ_1,...,μ_K)=\dfrac {1}{m}\sum^{m}_{i=1}\left\| X^{\left( i\right) }-\mu_{c^{(i)}}\right\| ^{2}$
- ${{\mu }_{{{c}^{(i)}}}}$ 代表与 ${{x}^{(i)}}$ 最近的聚类中心点
- 我们的的优化目标便是找出使得代价函数最小的 $c^{(1)}$ , $c^{(2)}$ ,…, $c^{(m)}$ 和 $μ^1$ , $μ^2$ ,…, $μ^k$ ：
在K-均值算法的迭代实现过程中，算法第一个循环用于减小 c(i) 引起的代价，而第二个循环则是用于减小 μi 引起的代价。算法会在每一次迭代都减小代价函数，不然便说明存在错误

二、随机初始化

2.1 随机初始化的聚类中心点的方法

选择 $K < m$ ，即聚类中心点的个数要小于所有训练集实例的数量
随机选择 $K$ 个训练实例，然后令 $K$ 个聚类中心分别与这 $K$ 个训练实例相等

2.2 随机初始化可能出现的问题

K-means的一个问题在于，如果初始化不好，有可能会停留在一个局部最小值处（局部最优解）
解决局部最优问题就是多次随机初始化，找到最好的解（畸变函数最小，即代价最小）：通常需要运行多次 K-means算法，每一次都重新随机初始化，最后比较多次运行 K-means的结果，选择代价函数最小的结果
- 这种方法在K较小的时候(2-10)可行，如果K较大可能不会有明显地改善

三、聚类数的选择

没有所谓最好的选择聚类数的方法，通常是需要根据不同的问题，人工进行选择的
选择的时候思考我们运用K-均值算法聚类的动机是什么，然后选择能最好服务于该目的标聚类数

3.1 肘部法则

肘部法则——选择聚类数目的一个方法
肘部法则的具体内容：我们所需要做的是改变 $K$ 值，也就是聚类类别数目的总数。用一个聚类来运行K均值聚类方法。这就意味着，所有的数据都会分到一个聚类里，然后计算成本函数或者计算畸变函数 $J$ 。 $K$ 代表聚类数字
肘部法则具体例子：
- 假设使用肘部法则得到上面左图的曲线，我们看到在 $K = 3$ 的时候达到一个肘点。在此之后，畸变值就下降的非常慢, 则我们就选 $K = 3$ ，这是一种用来选择聚类个数的合理方法
- 但是大部分情况下会像上面的右图一样没有肘点，这时就需要人工选择

四、聚类的其他知识扩充

4.1 相似度/距离计算方法总结

(1). 闵可夫斯基距离Minkowski/（其中欧式距离： $p = 2$ )

$dist(X,Y)={{\left( {{\sum\limits_{i=1}^{n}{\left| {{x}_{i}}-{{y}_{i}} \right|}}^{p}} \right)}^{\frac{1}{p}}}$

(2). 杰卡德相似系数(Jaccard)：

$J(A,B)=\frac{\left| A\cap B \right|}{\left|A\cup B \right|}$

(3). 余弦相似度(cosine similarity)：

$n$ 维向量 $x$ 和 $y$ 的夹角记做 $\theta$ ，根据余弦定理，其余弦值为：

$(\theta )=\frac{{{x}^{T}}y}{\left|x \right|\cdot \left| y \right|}=\frac{\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}}{\sqrt{\sum\limits_{i=1}^{n}{{{x}_{i}}^{2}}}\sqrt{\sum\limits_{i=1}^{n}{{{y}_{i}}^{2}}}}$
(4). Pearson皮尔逊相关系数：
${{\rho }_{XY}}=\frac{\operatorname{cov}(X,Y)}{{{\sigma }_{X}}{{\sigma }_{Y}}}=\frac{E[(X-{{\mu }_{X}})(Y-{{\mu }_{Y}})]}{{{\sigma }_{X}}{{\sigma }_{Y}}}=\frac{\sum\limits_{i=1}^{n}{(x-{{\mu }_{X}})(y-{{\mu }_{Y}})}}{\sqrt{\sum\limits_{i=1}^{n}{{{(x-{{\mu }_{X}})}^{2}}}}\sqrt{\sum\limits_{i=1}^{n}{{{(y-{{\mu }_{Y}})}^{2}}}}}$

Pearson相关系数即将 $x$ 、 $y$ 坐标向量各自平移到原点后的夹角余弦

4.2 聚类的衡量指标

(1). 均一性： $p$

类似于精确率，一个簇中只包含一个类别的样本，则满足均一性。其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)

(2). 完整性： $r$

类似于召回率，同类别样本被归类到相同簇中，则满足完整性;每个聚簇中正确分类的样本数占该
类型的总样本数比例的和

(3). V-measure: 均一性和完整性的加权平均

$\frac{(1+\beta^2)*pr}{\beta^2*p+r}$

(4). 轮廓系数

样本 $i$ 的轮廓系数： $s (i)$
簇内不相似度:计算样本 $i$ 到同簇其它样本的平均距离为 $a (i)$ ，应尽可能小。
簇间不相似度:计算样本 $i$ 到其它簇 $C_j$ 的所有样本的平均距离 $b_{ij}$ ，应尽可能大。
轮廓系数： $s (i)$ 值越接近1表示样本 $i$ 聚类越合理，越接近-1，表示样本 $i$ 应该分类到另外的簇中，近似为0，表示样本 $i$ 应该在边界上;所有样本的 $s (i)$ 的均值被成为聚类结果的轮廓系数。
$\frac{b(i)-a(i)}{max\{a(i),b(i)\}}$

(5). ARI

数据集 $S$ 共有 $N$ 个元素，两个聚类结果分别是：

$X=\{{{X}_{1}},{{X}_{2}},...,{{X}_{r}}\},Y=\{{{Y}_{1}},{{Y}_{2}},...,{{Y}_{s}}\}$

$X$ 和 $Y$ 的元素个数为：

$a=\{{{a}_{1}},{{a}_{2}},...,{{a}_{r}}\},b=\{{{b}_{1}},{{b}_{2}},...,{{b}_{s}}\}$

在这里插入图片描述

记： ${{n}_{ij}}=\left| {{X}_{i}}\cap {{Y}_{i}} \right|$

$ARI=\frac{\sum\limits_{i,j}{C_{{{n}_{ij}}}^{2}}-\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)\cdot \left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]/C_{n}^{2}}{\frac{1}{2}\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)+\left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]-\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)\cdot \left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]/C_{n}^{2}}$