K-means 算法 Kmeans++ 二分Kmeans

最新推荐文章于 2022-03-18 10:19:52 发布

知了不知蝉鸣惊

最新推荐文章于 2022-03-18 10:19:52 发布

阅读量1.9k

点赞数 2

分类专栏：机器学习笔记文章标签： kmeans

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/promisejia/article/details/88322330

版权

机器学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

1. K-means 算法原理（距离度量采用欧式距离）

随机选取k个簇中心点
遍历所有数据，将每个数据划分到欧式距离最近的中心点中
计算每个聚类的平均值，并作为新的簇中心点
重复2-3，直到某个中止条件

中止条件：

簇中心变化率收敛
足够多的迭代
最小平方误差MSE，非凸，采用迭代逼近局部最优。

注意，若不是采用欧式距离，簇中心的更新方式也随之不同，比如采用曼哈顿距离（绝对值），则不采用平均值，采用中值。

2. Kmean算法推导

注意：使用不同的距离度量，簇中心的跟新公式便不一样。推导如下：
在这里插入图片描述

3. kmeans的优缺点

缺点：

K值是用户给定的，且对聚类结果影响很大（一般交叉验证选取）。
对初始的簇中心敏感（由此提出 二分K-means、Kmeans++进行改进）
利群值对模型影响很大（如2，4，6，8，100；这种数据样本可采用K中值算法，即选取中间值作为更新簇）
不适合发现大小差别很大的簇

优点：

簇类似高斯分布时，效果会不错
简单，容易理解

4. 二分Kmeans算法 K-means++

二分K-means、Kmeans++

Kmeans++ :

并不是随机给定簇中心点，而是先随机选取一个初始簇中心，然后选一个离前k个簇中心较远的另一个点成为下一个簇中心，具体为计算每一个样本 $x_i$ ，离k个簇中心的最短距离 $d_{min}^i$ ，然后找出最大的 $d_{min}^i$ .

二分Kmeans算法

每次从队列中出来一个簇，分成两个字簇，再进队；循环至簇数等于K

知了不知蝉鸣惊

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。