c均值聚类中心坐标公式如何使用_(2)聚类算法之K-means算法

本文介绍了K-means聚类算法的基本原理,包括欧氏距离、类簇中心的更新公式以及迭代终止条件。阐述了算法的numpy实现和使用scikit-learn库的实现方式,并探讨了其优缺点,如对初始中心点和异常点的敏感性,以及仅适用于球形类簇的局限性。最后提供了代码和数据下载地址。
摘要由CSDN通过智能技术生成

1.引言

K-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集。

K-means算法中的

equation?tex=K 代表类簇个数,
equation?tex=means 代表类簇内数据对象的均值
(当有部分异常点时,求均值是不合理的,即一个特大都值,或者极小的值,会影响均值的数值),因此,K-means算法又称为k-均值算法, k-means算法是一种基于划分的聚类算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。数据对象间距离的计算有很多种,k-means算法通常采用欧氏距离来计算数据对象间的距离。

2.K-means算法原理

K-means算法以距离作为数据对象间相似性度量的标准,通常采用欧氏距离来计算数据对象间的距离。下面给出欧式距离的计算公式 (

equation?tex=x 代表据具有
equation?tex=m 个属性的行向量)

equation?tex=dist%28x_%7Bi%7D%2Cx_%7Bj%7D%29%3D%5Csqrt%7B%28x_%7Bi%7D-x_%7Bj%7D%29%28x_%7Bi%7D-x_%7Bj%7D%29%5ET%7D+%5Ctag%7B1%7D

K-means算法聚类过程中,每次迭代,对应的类簇中心需要重新计算(更新):对应类簇中所有数据对象的均值,即为更新后该类簇的类簇中心。定义第

equation?tex=K 个类簇的类簇中心为
equation?tex=Center_k ,则类簇中心更新方式如下:

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值