机器学习，K均值算法笔记（草履虫都能学会），嘎嘎简单

最新推荐文章于 2024-07-15 15:09:30 发布

GottenZZP

最新推荐文章于 2024-07-15 15:09:30 发布

阅读量670

点赞数 20

分类专栏：人工智能机器学习笔记记录文章标签：机器学习均值算法笔记人工智能 k-means kmeans 算法

本文链接：https://blog.csdn.net/SPAN_ZP/article/details/138443354

版权

18 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

本文详细介绍了K-均值聚类算法，包括其含义、无监督学习的应用、聚类过程（包括初始化聚类中心、大体步骤和优化目标函数），以及如何避免局部最优问题，通过多次运行以求得全局最优解。

摘要由CSDN通过智能技术生成

机器学习笔记系列

我们先想好要将整个数据集分为几个簇，若为K个簇，则分配K个聚类中心，将每个聚类中心随机分配一个数值，每个聚类中心的每次迭代都将比较所有样本和自己的距离，将离自己近的样本划分为自己的类别，然后计算自己类别下的所有样本的均值赋值给自己，再更新位置，最终碰到更新不动了，则划分完成，如下列步骤所示
从上示图例可以清楚的看见两个聚类中心所移动的走向及其步骤的

先定义几个符号
- $c^{(i)}$ ：第i个样本所属的簇
- $\mu_k$ ：第k个簇
- $\mu_{c^{(i)}}$ ：第i个样本所属的簇的聚类中心
  - 例如，当 $c^{(1)}=2$ 时代表第一个样本属于2号簇，而 $\mu_{c^{(1)}}=\mu_2$
优化目标函数： $J(c^{(1)},...,c^{(m)},\mu_1,...,\mu_K)=\frac{1}{m}\sum\limits_{i=1}^{m}\left\|x^{(i)}-\mu_{c^{(i)}}\right\|^2$
不难看出，sum后面的就是我们的距离公式，该函数也就是要寻找出能使得该函数最小化的 $c^{(1)},...,c^{(m)},\mu_1,...,\mu_K$
该函数也叫失真代价函数｜K均值算法的失真

For i in range(1, 100) 运行100次K均值算法
1. 随机初始化K均值聚类中心
2. 运行K均值，获取 $c^{(1)},...,c^{(m)},\mu_1,...,\mu_K$
3. 计算代价函数J
经过上述运行后，我们可以得出100种分类该数据集的方法
我们最后从这100种方法中选择出代价函数J最小的那个方法

一般情况下，当我们要分出的簇的个数较小，在10个以下的情况，我们运行多次初始化会有比较明显的效果，而如果K的值较大，例如100个以上，那么可能在第一次随机初始化的时候效果就比较好了，所以在给后续进行随机初始化的时候效果可能不会有很大的改进
一般情况下，当我们要分出的簇的个数较小，在10个以下的情况，我们运行多次初始化会有比较明显的效果，而如果k的值较大，例如100个以上，那么可能在第一次随机初始化的时候效果就比较好了，所以在给后续进行随机初始化的时候效果可能不会有很大的改进