数据挖掘十大算法之k均值聚类算法

K-Means算法

K-Means是一种聚类算法,属于无监督学习方法的一种。也是基于原型的聚类算法。简单的介绍就是选取k个中心点,形成簇,然后不断更新中心点,直至簇不再改变。

算法流程

  • 随机生成k个初始点作为中心点
  • 将数据集中的数据按照距离中心点的远近分到各个簇中
  • 将各个簇中的数据求平均值,作为新的中心点,重复上一步,直到所有的簇不再改变

距离的选择

  • 欧氏距离 每个维度的差的平方之和
  • 曼哈顿距离 每个维度的差的绝对值之和
  • 切比雪夫距离 每个维度中最大的差的绝对值
  • 相关系数

优点

  • 易于实现,理解简单。

缺点

  • k的值不好确定,不能准确判断出样本应有几个中心点。
  • 不适用于大型样本,可用mini-batch方法选取部分样本来计算中心点
  • k均值算法不能处理非球形簇、不同尺寸和不同密度的簇,这时需要用到其他聚类算法。
  • 初始中心点的选择对算法有很大影响。
  • 离群数据点对中心点的计算有很大影响。所以去除离群点有助于提高算法准确率。
  • 易收敛于局部最优值,可用二分k均值算法解决这个问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值