机器学习--K-means算法（聚类，无监督学习）

最新推荐文章于 2023-07-05 17:11:20 发布

anualday

最新推荐文章于 2023-07-05 17:11:20 发布

阅读量6.5k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anualday/article/details/50311699

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、基本思想

聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。比如上面的星星，聚类后结果是一个个星团，星团里面的点相互距离比较近，星团间的星星距离就比较远了。

二、算法步骤

K-means算法是将样本聚类成k个簇（cluster），具体算法描述如下：

1、随机选取k个聚类质心点（cluster centroids）为。

2、重复下面过程直到收敛 {

对于每一个样例i，计算其应该属于的类

对于每一个类j，重新计算该类的质心

}

三、代码实现（matlab）

四、k-means 和EM 的关系思考

K-means来说就是我们一开始不知道每个样例对应隐含变量也就是最佳类别。最开始可以随便指定一个给它，然后为了让P(x,y)最大（这里是要让J最小），我们求出在给定c情况下，J最小时的（前面提到的其他未知参数），然而此时发现，可以有更好的（质心与样例距离最小的类别）指定给样例，那么得到重新调整，上述过程就开始重复了，直到没有更好的指定。这样从K-means里我们可以看出它其实就是EM的体现，E步是确定隐含类别变量，M步更新其他参数来使J最小化。这里的隐含类别变量指定方法比较特殊，属于硬指定，从k个类别中硬选出一个给样例，而不是对每个类别赋予不同的概率。总体思想还是一个迭代优化过程，有目标函数，也有参数变量，只是多了个隐含变量，确定其他参数估计隐含变量，再确定隐含变量估计其他参数，直至目标函数最优。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习--K-means算法（聚类，无监督学习）

一、基本思想聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。比如上面的星星，聚类后结果是一个个星团，星团里面的点相互距离比较近，星团间的星星距离就比较远了。二、算法步
复制链接

扫一扫

专栏目录

博客等级

码龄12年

41
原创

8
点赞

24
收藏

14
粉丝

关注

私信

热门文章

分类专栏

面试笔试 15篇
机器学习 11篇
python 9篇
linux 2篇
实习 6篇
自动化测试 3篇
java 3篇

最新评论

charles使用教程指南+客户端弱网测试
进击小菜: 我也想知道文末这个上下行速率是怎么计算的，还有就是关于丢包率的问题要怎么确定呀？比如2G网络的丢包率，请教一下，嘿嘿！
机器学习--应用：评估帖子相关性
j540980735: 博主您好！我是北师大一名大三学生，最近拜读您的文章《机器学习--应用：评估帖子相关性》，有一点疑惑，就是您文章用dist_norm计算帖子相似度时。运行出来与句子“imaging databases”无任何相同词语的post 1显示dist为1.41（书里也是这样写的），请问这个值是怎么计算出来的呢？我手动计算了几次都没有得出这个数。非常感谢！
charles使用教程指南+客户端弱网测试
大胖鱼的春天: 楼主，你这个上行下行的速率怎么算的，为什么跟链接页上的显示不一样~ 这个是按照什么公式换算的吗？如图所示：你的数据网络上行下行弱网 10 30 2G 15 50 3G 384 2800 链接地址的数据上行(MHz) 下行(MHz) 上行速率(bps) 下载速率(bps) 备注 890~915 935~960 2.7k 9.6k GSM900 880~890 925~935 2.7k 9.6k EGSM900 谢谢~
2016腾讯春招模拟笔试
玉儿Qi: 请问楼主~去年的春招正式考试是什么时候啊?
机器学习工具安装（python)
qrlhl: 谢谢支持~~祝你学习愉快~~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。