聚类 python_聚类分析及python实现（一）

最新推荐文章于 2024-06-30 09:24:04 发布

weixin_39629075

最新推荐文章于 2024-06-30 09:24:04 发布

阅读量221

点赞数

文章标签：聚类 python

各位筒子们，大家好，好久不见，有没有一种“周五思君不见君，共饮长江水”的感觉啊。姬莫君在这里给各位小主们道个歉，由于我工作原因断更了一次，不仅耽误了筒子们学习知识的宝贵时间，而且老板答应给我加的鸡腿也不翼而飞了.

为了不让到嘴的鸡腿变成“飞腿”我决定从今以后不断更.

今天给筒子们带来的干货是：K-均值聚类算法，它是一种无监督的机器学习算法. 什么是无监督呢？小明同学：今天自习课，班主任请假，其他人在学习，我和毛毛双排玩王者农药，还用阿珂拿了五杀. 小明同学的解释很到位，老师不在，没人监督情况下，班级学生分为两类，一类是好好学习的其他同学，一类是小明和毛毛为马化腾冲业绩、为队友冲战绩的“垫境选手”.

由此可见，无监督的意思就是将相似的对象自动归到同一组中，有点像全自动分类，也就是事先我们没有给一组数据做任何的标签(标签是什么ghost）. 每一组中的对象越相似，聚类效果越好，就像 "物以类聚，人以群分"及“狼狈为奸”（你怎么尬说都行），有共同特点大家才能好好一起搞事情嘛.

因此聚类也被称为无监督分类. K-均值算法的工作流程非常简单大致如下：

挑选K个初始点作为起始的质心（也就是中心点，一般随机选择）

为数据集中的每个点找到距离它最近的质心，并把这个点分给这个组类（去质心那里拜码头）

将每个组类的所有点进行取平均值作为新的质心（重新挑老大）

从上面三个步骤我们可以看到，“最近”的质心，也就是需要进行距离计算，当然使用不同的距离计算方法，得到的聚类效果也是不同的，在下一讲，我们会专门介绍几种距离计算方法.

K-均值优点是容易实现，就是取平均值嘛；缺点是在处理大规模数据时候收敛速度较慢；适合的数据类型：数值型数据。

好了本期姬莫君对于K-均值的简单介绍到这里就结束了，如果您觉得对您有一点帮助，就为姬莫君点个赞吧.

weixin_39629075

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类 python_聚类分析及python实现（一）

各位筒子们，大家好，好久不见，有没有一种“周五思君不见君，共饮长江水”的感觉啊。姬莫君在这里给各位小主们道个歉，由于我工作原因断更了一次，不仅耽误了筒子们学习知识的宝贵时间，而且老板答应给我加的鸡腿也不翼而飞了.为了不让到嘴的鸡腿变成“飞腿”我决定从今以后不断更.今天给筒子们带来的干货是：K-均值聚类算法，它是一种无监督的机器学习算法. 什么是无监督呢？小明同学：今天自习课，班主任请假，其他人在学...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。