k均值算法的优化目标和随机初始化

up_XCY

于 2019-04-09 13:13:53 发布

阅读量2.4k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/up_XCY/article/details/89142948

版权

机器学习专栏收录该内容

54 篇文章

订阅专栏

本文深入探讨了K均值算法的优化目标与代价函数，解释了如何通过最小化代价函数来优化聚类效果。同时，文章详细介绍了随机初始化聚类中心的方法及其潜在问题，并提出了多次随机初始化以避免局部最优解的策略。此外，还讨论了如何根据具体需求选择最佳的聚类数量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里我们来学习k均值算法的优化目标（代价函数）：

优化目标的值等于每一个训练集数据到该所属的聚类中心距离的平方的平均值

其实在我们进行之前所循环进行的聚类分簇和移动聚类中心的操作，都是在不断的最小化J的大小，使J最小化。

我们再来说随机初始化：在之前我们选择聚类中心是随机任意的选择，但是这里我们用的是更加好或者用的更加多的随机选择聚类中心的方法。我们在训练集中随机选择k个聚类中心。

当然有时候我们的选择会很好，有时我们的随机选择会不太理想：

这里我们还要讨论这种随机初始化可能带来的缺点，即我们可能求得是一个不太理想的局部最优解，而不是最优解。

如下图右边的上面的图，我们随机的聚类中心导致我能可以很好的将训练集分为3个簇，但是当我们随机的聚类中心是右下的两种情况，那我们我们可能就是得到不太好的局部最优解。

所以为了避免这种现象的出现，我们的做法是多次随机初始化聚类中心。例如我们运行100次k均值算法，这样我们就随机初始化了100次，我们分别计算出各自的代价函数值，然后选择最小的一种情况就是我们的最优解。当然这种做法，只是适用于k比较小的情况（2-10），当k值很大时就不太实用。

最后我们来讨论聚类数量选择：

对于类别数量的选择，我们首先想到的一般是同构观察，手动的选择。

例如下面的训练集，我们有的会认为应该分为4类，有的认为分为2类等等，所以这种方法因人而异。

另一种方法叫做“肘部法则”：

如果随着k不断增大，J的值如下图左边所示，那么可以很好的根据肘部法则选择k=3，但是当我们的曲线比较模糊的时候，我们就不能很好的准确出k。

相比以上两种，更加好一点的方法叫做下游目标，即我们根据我们划分后的目的来选择k的值。

例如之前的T恤厂家将T恤大小分类，是3类，还是5类，这就要根据商家的目的。例如如果分为5类，则可以很好的满足大部分客户的需求，如果分为3类，就可以将价格定低点便宜销售等等。。。

博客等级

码龄9年

127
原创

71
点赞

167
收藏

14
粉丝

关注

私信

热门文章

分类专栏

最新评论

对LSTM层的参数units 的理解
goldinglin: 这个说的很到位，隐藏单元数量实际指的是h状态的维度。输入是16维特征，h状态维度32，输出32维向量。某种意义来说这5个单词，可否看作是时间步长。但时间步长不影响LSTM内部权重数量
对LSTM层的参数units 的理解
哆啦A梦的口袋_zzz: 应该意思是有 4个神经元数量为32的前馈网络层
对LSTM层的参数units 的理解
小橘也想养只猫: 也就是说有4个神经元数量为32的前馈网络层——这一句话是说每个前馈网络层的神经元数量都是32，还是说4个前馈网络层一共只有32个神经元啊
简化代价函数与梯度下降
m0_56129032: 好家伙，直接搬过来啊，有没有公式的推导过程呢
对LSTM层的参数units 的理解
Aix_chen: 感谢！！！！解决了我的疑问！！！这要是没人指点真的要想死

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。