聚类之K-means

最新推荐文章于 2025-03-12 21:16:40 发布

智元说车

最新推荐文章于 2025-03-12 21:16:40 发布

阅读量5.1k

点赞数 1

分类专栏：机器学习文章标签：机器学习算法聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012771351/article/details/53201311

版权

机器学习专栏收录该内容

35 篇文章

订阅专栏

注：本文中所有公式和思路来自于邹博先生的《机器学习升级版》，我只是为了加深记忆和理解写的本文。

聚类是典型的无监督学习，聚类本质就是对大量的未知标记的数据集，按照数据内在的相似性将数据集划分为多个类别，使类别内的数据相似性较大，而类别间的相似度较小。

本文将会介绍K-means算法以及改进。

那么我们怎么来衡量数据见的相似度呢？

闵可夫斯基距离Minkowski/欧氏距离：

如果p取2的话就是欧氏距离，如果p取1的话就是曼哈顿距离。

杰卡德相似系数(Jaccard):

Jaccard相关系数在推荐系统中应用很多，比如评价两个用户之间喜好的相似度。

余弦相似度(cosine similarity)：

夹角余弦在文本发现、推荐系统中用的比较多。

Pearson相关系数：

相对熵(KL散度)：

Hellinger距离：

KL散度和Hellinger距离联系很大，当α等于0可以相互推导出来。

其实这些距离度量公式之间往往都是有联系，夹角余弦和Pearson相关系数也是可以通过平移和求协方差得到。

K-means

我们首先给定一个有N个实例的数据集，构造数据的K个簇，k≤n，满足以下条件：

(1)：每个簇至少包含一个一个对象。

(2)：每个对象只属于一个簇

(3)：将满足上诉条件的k个簇称作一个合理的划分

基本思路：对于给定的类别数目k，首先给出初始划分，通过迭代改变样本和簇的隶属关系，使得每一次改进后的划分都比上一次要好。

算法：

输入：样本S = x1,x2...xm，k(聚类中心的个数)

输出：每个样本被标记为某类

(1)：初始随机选择k个聚类中心μ1，μ2... μk

(2)：对于每个样本xi，将其标记为距离类别中心最近的类别：

(3)：将每个聚类中心更新为隶属于该类别的所有样本的均值：

(4)：重复(2)(3)两步直到类别中心的变化小于阈值

终止条件可以选择多种方式：

迭代次数/簇中心变化率/最小平方误差MSE(Minimum Squared Error)

上边这幅图就比较形象的说明了K-means的过程了。

当然了，这种做法有道理么，我们怎么去解释呢？

我们不妨使用平方误差来作为目标函数：

既然目标函数是凸的，我们不妨对μ求偏导并令其等于零：

K-Mediods

我们现在来对K-means将簇中所有的点的均值作为新的质心，若簇中有有异常点，将导致均值偏离严重，我们用一组数据来说明一下：

数组1,2,3,4,100的均值为22，显然这个22离大多数1，2，3，4比较远，所以我们不妨将均值改为中值，这样的话聚类中心就是3，还是比较有道理的，这就是改进版的K-中值(K-Mediods)聚类。

K均值的另一种做法

我们首先随机选一个聚类中心，然后计算每个样本到我这个聚类中心A的距离，然后排序，下次根据距离的大小随机选一个样本做聚类中心，如果离A越近那么被选中的概率越小，这样选出的第二个聚类中心B也是比较有道理的。接着计算每个样本到聚类中心A和B的距离，保留距离小的作为新的距离排序，并标记为离得近的类别，接着在按照距离大小选第三个聚类中心，依然按照距离越大概率越大的方式去选。。。。直到找到了K个聚类中心为止。

K-means算法对初值是敏感的，以图说明：

如果这样的话，我们可以对聚类中心做一个处理：如果我们发现一个聚类中心的均方误差比其他的聚类中心大很多，并且有两个聚类中心均方误差很小离的又很近，那么我们就有理由认为可能聚类错了，这样的话就可以将大的聚类分成两个聚类中心聚类，小的聚类中心合并到一起。

总结：

优点：快速、简单，对处理大数据集，该算法保持可伸缩性和高效率。当簇近似高斯分布时，它的效果比较好。

缺点：必须是先给出k，而且对初值比较敏感，对于不同的初始值，可能会导致不同的结果。不适合发现非凸型的。对噪声和孤立点数据敏感

K-means算法可作为其他算法的基础算法。

博客等级

码龄12年

34
原创

68
点赞

120
收藏

64
粉丝

关注

私信

热门文章

分类专栏

机器学习 35篇
linux 2篇
deep learning 1篇

最新评论

HMM之前向后向算法
weixin_46083434: 你好，非常感谢你的讲解让我可以把前向算法和后向算法结合起来理解，不过还有两个问题不是很明白，1. 单个状态的概率那个公式，分母P(o|lamda) 换成alphat(i)*betat(i)再对所有i（状态）求和，是因为生成观测序列o的总概率是t时刻下每个i（状态）可能的概率之和吗？ 2. 最后那个联合概率转换到最终结果不太明白，请问可以请教一下再具体一点的步骤吗？谢谢
LDA-隐狄利克雷分布-主题模型
leilei9406: 想请问下如果做短文拼接可以有哪些方法，我正在做一个短文本的LDA结果不是很好，可以请教下您吗？
变分算法
qq_36711371: 请问一下，P（x）和q（x）的距离公式中，α=1的时候，公式为什么会退化为KL(p||q)，α=1时，分母为0.
HMM之前向后向算法
Chester_ieee: 前后向概率的公式，i和t好像是写反了。
聚类之层次聚类与密度聚类
落入凡间的奥特曼: 你好，请问这个机器学习升级版是课程吗?

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。