2. K-Means的优化

最新推荐文章于 2021-05-14 20:28:20 发布

weixin_30852367

最新推荐文章于 2021-05-14 20:28:20 发布

阅读量174

点赞数

文章标签：数据结构与算法人工智能大数据

原文链接：http://www.cnblogs.com/huangyc/p/10226492.html

版权

1. K-Means原理解析

2. K-Means的优化

3. sklearn的K-Means的使用

4. K-Means和K-Means++实现

1. 前言

上一篇博文K-Means原理解析简单清晰的阐述了K-Means的原理和过程。但是还有一些在使用K-Means过程中会遇到的问题，我们本文进行分析和讨论。比如：如何选取初始质心的位置，如何处理距离计算的时候效率低的问题。

2. 选取初始质心的位置

假设我们已经通过上一篇K-Means原理解析确定了质心k的大小，那如何确定k个质心的位置呢？用过K-Means的同学都知道k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响，因此需要选择合适的k个质心。如果仅仅是完全随机的选择，有可能导致算法收敛很慢。K-Means++算法就是对K-Means随机初始化质心的方法的优化。

K-Means++的对于初始化质心的优化策略也很简单，如下：

从输入的数据点集合中随机选择一个点作为第一个聚类中心\(\mu_1\).
对于数据集中的每一个点\(x_i\)，计算它与已选择的聚类中心中最近聚类中心的距离.
\[ D(x_i) = arg\;min|x_i-\mu_r|^2\;\;r=1,2,...k_{selected} \]
选择一个新的数据点作为新的聚类中心，选择的原则是：\(D(x)\)较大的点，被选取作为聚类中心的概率较大
重复2和3直到选择出k个聚类质心。
利用这k个质心来作为初始化质心去运行标准的K-Means算法。

3 处理距离计算效率低

3.1 elkan K-Means

在传统的K-Means算法中，我们在每轮迭代时，要计算所有的样本点到所有的质心的距离，这样会比较的耗时。那么，对于距离的计算有没有能够简化的地方呢？elkan K-Means算法就是从这块入手加以改进。它的目标是减少不必要的距离的计算。那么哪些距离不需要计算呢？

elkan K-Means利用了两边之和大于等于第三边,以及两边之差小于第三边的三角形性质，来减少距离的计算。

第一种规律是对于一个样本点\(x\)和两个质心\(\mu_{j1},\mu_{j2}\)。如果我们预先计算出了这两个质心之间的距离\(D(j_1,j_2)\)，则如果计算发现\(2D(x,j_1)≤D(j_1,j_2)\),我们立即就可以知道\(D(x,j_1)≤D(x,j_2)\)。此时我们不需要再计算\(D(x,j_2)\),也就是说省了一步距离计算。

第二种规律是对于一个样本点\(x\)和两个质心\(\mu_{j1},\mu_{j2}\)。我们可以得到\(D(x,j_2)≥max\{0,D(x,j_1)-D(j_1,j_2)\}\)。这个从三角形的性质也很容易得到。

利用上边的两个规律，elkan K-Means比起传统的K-Means迭代速度有很大的提高。但是如果我们的样本的特征是稀疏的，有缺失值的话，这个方法就不使用了，此时某些距离无法计算，则不能使用该算法。