K-means聚类

1.聚类与分类的区别

分类是按照样本的某种属性标记来对样本进行区分,归类;而聚类是对无标记样本进行的操作。聚类通过发掘无标记样本的内在规律从而对样本进行分类。因此聚类是“无监督学习”算法的一种典型代表。

2.k-means聚类算法

当我们获得了给定的样本集 D={x1,x2,x3......xn}时,k-means算法对于样本得到一个簇的集合 C = {C1,C2,C3....}。 簇的集合C使如下公式的值最小化:

         

其中k表示所要划分的样本的个数,


       

但是要找到E的最小值需要考虑到样本集D的所有划分,这是一个NP问题,因此k-means算法使用迭代求解近似解。

3.算法过程

1.从样本空间中随机选取k个样本作为初始均值向量

2.计算样本 与各均值向量 的距离,根据最近的距离确定 的簇标记,将样本 划入相应的簇

3.根据划分的簇计算新的均值向量   

 

4.设置为新的均值向量,计算样本 与各均值向量 的距离,根据最近的距离确定 的簇标记,将样本 划入相应的簇

5.计算

6.E值若与最小值相近,则结束,得到聚类的簇,否则重复步骤3.


4.图解(图片出自网上)

下图展示对n个样本的选取k=2时的聚类效果。


5.k-means缺点

1.k值由人为指定,对结果影响较大

2.对初始质心比较敏感,易陷入局部最小值,可以进行多次聚类,选择最小值

3.不能处理非球形的簇


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值