K-Means算法简介

最新推荐文章于 2024-03-14 06:20:16 发布

早睡身体好_

最新推荐文章于 2024-03-14 06:20:16 发布

阅读量2.8k

点赞数 2

分类专栏： ——机器学习——

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Q_M_X_D_D_/article/details/109708369

版权

——机器学习—— 专栏收录该内容

15 篇文章 35 订阅

订阅专栏

问题描述

假设有下面这样一个数据集，想要对其中的数据进行分类，分为两个聚类。例如

算法流程

K-Means算法是个迭代算法，其迭代过程分为两步：聚类分配和中心移动。首先随机生成两个点，即聚类中心，如下图所示。

然后开始算法的迭代过程：

（1）首先进行聚类分配，遍历所有样本，按照样本与两个聚类中心的距离大小来将每个样本分配给两个聚类中心。即把样本分配到离他最近的那个聚类中心。

（2）然后进行聚类中心的移动。计算出同类所有数据的均值，然后将该类数据的聚类中心移动到那个均值上。

然后重复（1）和（2），直到聚类中心不再变化，这时就产生了最后的分类结果。如下图所示：

优化目标

首先定义三个符号： $c^{i}$ 表示当前第i个样本所属的聚类索引； $\mu _{k}$ 表示第k个聚类中心的坐标； $\mu _{c^{(i)}}$ 表示第i个样本所属聚类的聚类中心的坐标。优化函数如下：

其中第一行是优化目标，1/m乘以每个样本与其聚类中心聚类的平方的总和。K-Means算法的目标就是要找到合适的 $c^{i}$ 和 $\mu _{k}$ ，使优化目标最小。

事实上，K-Means算法迭代过程的第一步聚类分配，是在通过选择 $c^{i}$ 来最小化代价函数；而第二步中心移动，是通过选择合适的 $\mu _{k}$ 来最小化代价函数。

初始化

假设算法要将数据分为K个聚类，那么首先在训练集中随机选取K个点作为聚类中心，但是这样可能会出现局部最优解的问题。如下图所示：

此时只能通过多次初始化，得到多个不同的c参数和μ参数，再从中选取效果最好的那个，即选出代价函数值最小的那个。在聚类数较小时，多次初始化的效果更佳。

聚类数量K

聚类数量有时是很难确定的，例如下面这个例子：

这个训练集可以被分为4个聚类，也可以被分为2个聚类，所以有时聚类数量并没有标准答案。

但有一个肘部法则，可以帮助我们在选择尽量好的聚类数量。对于一个数据集，我们设置聚类数量为1,2,3…,8,9,10，并分别求出这些聚类数量所对应的代价值，然后可能得到下图这种曲线：

曲线中那个趋势变化最明显的点就是“肘部”，那么我们就可以选择肘部这个点来作为聚类数量。但在实际情况中，我们很难得到这样的曲线，可能得到的曲线是非常模糊的，相邻两点间的差别也很小，这是肘部法则就很难应用了。

在我们应用K-Means算法进行数据聚类时，往往会用这些分类后的数据进行下一步工作，那么最好的方法就是根据下一步工作的需要来选取聚类数量。

早睡身体好_

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
K-Means算法简介

问题描述假设有下面这样一个数据集，想要对其中的数据进行分类，分为两个聚类。例如算法流程K-Means算法是个迭代算法，其迭代过程分为两步：聚类分配和中心移动。首先随机生成两个点，即聚类中心，如下图所示。然后开始算法的迭代过程：（1）首先进行聚类分配，遍历所有样本，按照样本与两个聚类中心的距离大小来将每个样本分配给两个聚类中心。即把样本分配到离他最近的那个聚类中心。（2）然后进行聚类中心的移动。计算出同类所有数据的均值，然后将该类数据的聚类中心移动到那个均值上。.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。