K均值聚类的理解和实现

最新推荐文章于 2024-08-14 00:10:28 发布

qiao_lili

最新推荐文章于 2024-08-14 00:10:28 发布

阅读量2.8w

点赞数 17

分类专栏： OpenCV 文章标签： K-Meams opencv

本文链接：https://blog.csdn.net/qiao_lili/article/details/83384476

版权

本文深入探讨了K均值聚类算法，详细介绍了距离测度，包括欧式距离和马氏距离，特别是利用马氏距离进行数据归一化和分类。还讨论了K均值的基本理论、缺点以及改进方法。此外，通过实验展示了如何实现K-means++聚类，并应用肘部法则确定最佳聚类数。

摘要由CSDN通过智能技术生成

3.3.2 基于马氏距离K-means++聚类

3.3.3 基于肘部法则的K-means++聚类

4.参考资料

1. 距离测度

1.1 欧式距离

在数学中，欧氏距离或欧几里德度量是欧几里得空间中两点之间的“普通” 直线距离。通过这个距离，欧几里德空间成为度量空间。相关的规范称为欧几里得范数。较早的文献将度量指为毕达哥拉斯度量。广义的欧几里得范数项是L2范数或L2距离。

通常，对于n维空间来说，欧几里得距离可以表示为：

$R^{2}$ 中的欧式距离如图1.1-1所示：

图1.1-1 $R^{2}$ 中欧几里得距离的表达

标准的欧几里德距离可以是平方的，以便逐渐将更大的重量放置在更远的物体上。在这种情况下，等式变为：

${\ displaystyle d ^ {2}（\ mathbf {p}，\ mathbf {q}）=（p_ {1} -q_ {1}）^ {2} +（p_ {2} -q_ {2}）^ {2} + \ cdots +（p_ {i} -q_ {i}）^ {2} + \ cdots +（p_ {n} -q_ {n}）^ {2}。}$

平方欧几里德距离不是一个度量，因为它不满足三角不等式 ; 然而，它经常用于仅需要比较距离的优化问题。

它在理性三角学领域也被称为quadrance。

1.2 马氏距离

马氏距离是对点P和分布D的距离度量。马氏距离对多维数据进行了归一化，并测量了P点相对于D的平均值的标准差。如果P在D分布中心，那么马氏距离为0。如果对数据进行主成分分析，如图1.2-1所示，那么，当P相对于主轴越远，马氏距离的数值也就随之增长。当我们对主轴进行进行归一化后，马氏距离也就等同于在欧式空间的仿射变换。因此，马氏距离具有“无单位”和“尺度不变性”的特性，并且考虑了数据集的相关性。

图1.2-1 数据的主成分分析

马哈拉诺比斯观察距离：

${\ displaystyle {\ vec {x}} =（x_ {1}，x_ {2}，x_ {3}，\ dots，x_ {N}）^ {T}}$

从一组带有均值的观察中得出：

${\ displaystyle {\ vec {\ mu}} =（\ mu _ {1}，\ mu _ {2}，\ mu _ {3}，\ dots，\ mu _ {N}）^ {T}}$

那么，观察值与集合的距离使用协方差矩阵S表示为：

${\ displaystyle D_ {M}ï¼{\ vec {x}}ï¼= {\ sqrt {ï¼{\ vec {x}} - {\ vec {\ mu}}ï¼^ {T} S ^ { - 1}ï¼ {\ vec {x}} - {\ vec {\ mu}}ï¼}}ã\ï¼}$

集合中两个随机变量的距离为：

$d（\ vec {x}，\ vec {y}）= \ sqrt {（\ vec {x} - \ vec {y}）^ TS ^ { - 1}（\ vec {x} - \ vec {y} ）}。\，$

如果协方差矩阵是单位矩阵，则马哈拉诺比斯距离减小到欧几里得距离。如果协方差矩阵是对角矩阵，那么得到的距离度量称为标准欧式距离：

$d（\ vec {x}，\ vec {y}）= \ sqrt {\ sum_ {i = 1} ^ N {（x_i - y_i）^ 2 \ over s_ {i} ^ 2}}，$

其中， $s_{i}$ 表示变量 $x_{i},y_{i}$ 的标准差。

1.2.1 利用马氏距离进行数据归一化

如图1.2.1-1所示，当数据在空间中以非常不对称的形式进行分布时，k-means算法总是试图挖掘出一些与聚类相关的信息，因为k-means聚类的核心观点在于数据是以不均匀的方式进行聚类的。然而，“不对称”和“不均匀”之间却有着重要的区别。例如，当数据在某个维度上分布很远，而在其他维度上距离相对较小时,k-means必然不会收敛到好的结果。