K均值聚类的理解和实现

本文深入探讨了K均值聚类算法,详细介绍了距离测度,包括欧式距离和马氏距离,特别是利用马氏距离进行数据归一化和分类。还讨论了K均值的基本理论、缺点以及改进方法。此外,通过实验展示了如何实现K-means++聚类,并应用肘部法则确定最佳聚类数。
摘要由CSDN通过智能技术生成

目录

1. 距离的测度

1.1 欧式距离

1.2 马氏距离

1.2.1 利用马氏距离对数据进行归一化

1.2.2 利用马氏距离进行分类

2. K均值的基本理论

2.1 K均值的原理和实现

2.2 K均值的缺点

2.3 K均值改进

3. 算法实现

3.1 获取样本

3.2 协方差逆阵方根的计算方法

3.3 聚类实验

3.3.1 一般的K均值聚类

3.3.2 基于马氏距离K-means++聚类

3.3.3 基于肘部法则的K-means++聚类

4.参考资料


1. 距离测度

1.1 欧式距离

数学中欧氏距离欧几里德度量欧几里得空间中两点之间的“普通” 直线距离。通过这个距离,欧几里德空间成为度量空间。相关的规范称为欧几里得范数较早的文献将度量指为毕达哥拉斯度量广义的欧几里得范数项是L2范数L2距离

通常,对于n维空间来说,欧几里得距离可以表示为:

R^{2}中的欧式距离如图1.1-1所示:

                                                                           图1.1-1 R^{2}中欧几里得距离的表达

标准的欧几里德距离可以是平方的,以便逐渐将更大的重量放置在更远的物体上。在这种情况下,等式变为:

                            {\ displaystyle d ^ {2}(\ mathbf {p},\ mathbf {q})=(p_ {1} -q_ {1})^ {2} +(p_ {2} -q_ {2})^ {2} + \ cdots +(p_ {i} -q_ {i})^ {2} + \ cdots +(p_ {n} -q_ {n})^ {2}。}

平方欧几里德距离不是一个度量,因为它不满足三角不等式 ; 然而,它经常用于仅需要比较距离的优化问题。

它在理性三角学领域也被称为quadrance

1.2 马氏距离

马氏距离是对点P和分布D的距离度量。马氏距离对多维数据进行了归一化,并测量了P点相对于D的平均值的标准差。如果P在D分布中心,那么马氏距离为0。如果对数据进行主成分分析,如图1.2-1所示,那么,当P相对于主轴越远,马氏距离的数值也就随之增长。当我们对主轴进行进行归一化后,马氏距离也就等同于在欧式空间的仿射变换。因此,马氏距离具有“无单位”和“尺度不变性”的特性,并且考虑了数据集的相关性。

                                                                     图1.2-1 数据的主成分分析

马哈拉诺比斯观察距离 :

{\ displaystyle {\ vec {x}} =(x_ {1},x_ {2},x_ {3},\ dots,x_ {N})^ {T}}

 从一组带有均值的观察中得出:

{\ displaystyle {\ vec {\ mu}} =(\ mu _ {1},\ mu _ {2},\ mu _ {3},\ dots,\ mu _ {N})^ {T}}

那么,观察值与集合的距离使用协方差矩阵S表示为:

{\ displaystyle D_ {M}ï¼{\ vec {x}}ï¼= {\ sqrt {ï¼{\ vec {x}}  -  {\ vec {\ mu}}ï¼^ {T} S ^ { -  1}ï¼ {\ vec {x}}  -  {\ vec {\ mu}}ï¼}}ã\ï¼}

集合中两个随机变量的距离为:

d(\ vec {x},\ vec {y})= \ sqrt {(\ vec {x}  -  \ vec {y})^ TS ^ { -  1}(\ vec {x}  -  \ vec {y} )}。\,

如果协方差矩阵是单位矩阵,则马哈拉诺比斯距离减小到欧几里得距离。如果协方差矩阵是对角矩阵,那么得到的距离度量称为标准欧式距离

d(\ vec {x},\ vec {y})= \ sqrt {\ sum_ {i = 1} ^ N {(x_i  -  y_i)^ 2 \ over s_ {i} ^ 2}},

其中,s_{i}表示变量x_{i},y_{i}的标准差。

1.2.1 利用马氏距离进行数据归一化

如图1.2.1-1所示,当数据在空间中以非常不对称的形式进行分布时,k-means算法总是试图挖掘出一些与聚类相关的信息,因为k-means聚类的核心观点在于数据是以不均匀的方式进行聚类的。然而,“不对称”和“不均匀”之间却有着重要的区别。例如,当数据在某个维度上分布很远,而在其他维度上距离相对较小时,k-means必然不会收敛到好的结果。

         图1.2.1-1 (a)原始数据的垂直距离比水平距离小 (b)对空间进行方差归

  • 17
    点赞
  • 146
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值