吴恩达机器学习笔记八 K-means聚类算法

最新推荐文章于 2024-03-06 02:25:04 发布

qsdzxp

最新推荐文章于 2024-03-06 02:25:04 发布

阅读量243

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qsdzxp/article/details/82726087

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1. 代价函数

K-means算法是比较容易理解的，它属于无监督学习方法，所以训练样本数据不再含有标签。我们假设有样本数据 $x^{(1)},x^{(2)},\cdots,x^{(m)}$ ，我们选择设置 $K$ 个聚类中心 $u_1,u_2,\cdots,u_K$ ，K-means算法的代价函数表达式如下

J (c (1), c (2), \dots, c (m), u 1, u 2, \dots, u K) = 1 m \sum i = 1 m | | x (i) - u c (i) | | 2

$J(c^{(1)},c^{(2)},\cdots,c^{(m)},u_1,u_2,\cdots,u_K)=\frac{1}{m}\sum_{i=1}^{m}||x^{(i)}-u_{c^{(i)}}||^2$ 其中

c(i)∈[1,K] c ( i ) ∈ [ 1 , K ] $c^{(i)} \in [1,K]$ 表示距离

x(i) x ( i ) $x^{(i)}$ 最近的聚类中心。

2. 具体算法

K-means算法的具体流程如下：

Repeat {

for i = 1 to m

c(i) := index (form 1 to K) of cluster centroid closest to x(i)

for k = 1 to K

μk := average (mean) of points assigned to cluster k

}

其中，第一个循环用于更新每个样本距离最近的聚类中心，第二个循环用于更新聚类中心所处的位置。

3. 随机初始化

通常我们会随机选取 $K$ 个样本数据作为初始聚类中心，但是这样可能得到一个局部最小点。其中一个解决方法是，

多次运行K-均值算法，每一次都重新进行随机初始化，最后再比较多次运行K-均值的结果，选择代价函数最小的结果。

但是，这种方法在 $K\in[2,10]$ ，即 $K$ 较小的时候还是可行的，但是如果较大，这么做也可能不会有明显地改善。

4.聚类数的选取

绝大多数是需要根据数据人工选取的。肘图的方法可能有所帮助，比如得到左侧结果的时候，我们就可以选择肘的位置的 $K$ 作为聚类数。但肘图不一定可行，比如得到图中右侧结果的时候。
这里写图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。