聚类 python_聚类分析及python实现(一)

各位筒子们,大家好,好久不见,有没有一种“周五思君不见君,共饮长江水”的感觉啊。姬莫君在这里给各位小主们道个歉,由于我工作原因断更了一次,不仅耽误了筒子们学习知识的宝贵时间,而且老板答应给我加的鸡腿也不翼而飞了.

为了不让到嘴的鸡腿变成“飞腿”我决定从今以后不断更.

今天给筒子们带来的干货是:K-均值聚类算法,它是一种无监督的机器学习算法. 什么是无监督呢?小明同学:今天自习课,班主任请假,其他人在学习,我和毛毛双排玩王者农药,还用阿珂拿了五杀. 小明同学的解释很到位,老师不在,没人监督情况下,班级学生分为两类,一类是好好学习的其他同学,一类是小明和毛毛为马化腾冲业绩、为队友冲战绩的“垫境选手”.

由此可见,无监督的意思就是将相似的对象自动归到同一组中,有点像全自动分类,也就是事先我们没有给一组数据做任何的标签(标签是什么ghost). 每一组中的对象越相似,聚类效果越好,就像 "物以类聚,人以群分"及“狼狈为奸”(你怎么尬说都行) ,有共同特点大家才能好好一起搞事情嘛.

因此聚类也被称为无监督分类. K-均值算法的工作流程非常简单大致如下:

挑选K个初始点作为起始的质心(也就是中心点,一般随机选择)

为数据集中的每个点找到距离它最近的质心,并把这个点分给这个组类(去质心那里拜码头)

将每个组类的所有点进行取平均值作为新的质心(重新挑老大)

从上面三个步骤我们可以看到,“最近”的质心,也就是需要进行距离计算,当然使用不同的距离计算方法,得到的聚类效果也是不同的,在下一讲,我们会专门介绍几种距离计算方法.

K-均值优点是容易实现,就是取平均值嘛;缺点是在处理大规模数据时候收敛速度较慢;适合的数据类型:数值型数据。

好了本期姬莫君对于K-均值的简单介绍到这里就结束了,如果您觉得对您有一点帮助,就为姬莫君点个赞吧.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值