K-means

目录

1. 定义

2. 算法

2.1 K的确定

2.2 初始化的聚类中心

2.3 距离计算

2.4 质心的计算

2.5 是否收敛(停止条件)

3. 适用范围及缺陷


1. 定义

属于无监督学习。聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。

K-means 基于原型的、划分的距离技术。簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

根据聚类结果的表达方式又可以分为硬 k-means(HCM)算法、模糊k-means算法(FCM)和概率k-means算法(PCM)。

2. 算法

https://img-blog.csdn.net/20180814220443522?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM5NzQyMDEz/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

2.1 K的确定

  1. 采用经验值
  2. 采用次凝聚算法决定果粗的数目,并找到一个初始聚,然后用迭代重定位来改进该

2.2 初始化的聚类中心

随机的取初始心,这样簇的量常常很差。有以下策略:

  1. 多次运行,每次使用一组不同的随机初始质心,然后选取具有最小SSE(误差的平方和)的簇集。这种策略简单,但是效果可能不好,这取决于数据集和寻找的簇的个数。
  2. 取一个样本,并使用层次聚类技术对它聚类。从层次聚类中提取K个簇,并用这些簇的质心作为初始质心。该方法通常很有效,但仅对下列情况有效:样本相对较小;K相对于样本大小较小。
  3. 取所有点的质心作为第一个点。然后,对于每个后继初始质心,选择离已经选取过的初始质心最远的点。使用这种方法,确保了选择的初始质心不仅是随机的,而且是散开的。但是,这种方法可能选中离群点。

2.3 距离计算

欧几里得距离,一般需要先进行标准化,同时距离越大,个体间差异越大

 

空间向量余弦夹角相似度度量,值越大,差异越小。

 

2.4 质心的计算

取其均值。

2.5 是否收敛(停止条件)

一般是目函数达到最或者达到最大的迭代次数即可止。于不同的距离度量,目函数往往不同。

当采用欧式距离,目函数一般最小化象到其簇心的距离的平方和;当采用余弦相似度,目函数一般最大化象到其簇心的余弦相似度和。

3. 适用范围及缺陷

1. K值需要预先给定,属于预先知识,很多情况下K值的估计是非常困难的,对于像计算全部微信用户的交往圈这样的场景就完全的没办法用K-Means进行。对于可以确定K值不会太大但不明确精确的K值的场景,可以进行迭代运算,然后找出Cost Function最小时所对应的K值,这个值往往能较好的描述有多少个簇类。

2. K-Means算法对初始选取的聚类中心点是敏感的,不同的随机种子点得到的聚类结果完全不同

3. K均值算法并不是很所有的数据类型。它不能处理非球形簇、不同尺寸和不同密度的簇,银冠指定足够大的簇的个数是他通常可以发现纯子簇。

4. 对“噪声”和孤立点敏感。对离群点的数据进行聚类时,K均值也有问题,这种情况下,离群点检测和删除有很大的帮助。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值