K-means学习笔记

最新推荐文章于 2024-04-20 14:51:01 发布

yang11037

最新推荐文章于 2024-04-20 14:51:01 发布

阅读量212

点赞数

本文链接：https://blog.csdn.net/qq_36664641/article/details/83049113

版权

1 K-mean

###1.2.1 input：

###1.2.2 Output:

故最后某点 $x_i$ 所属的簇称为 $\mu_{c^i}$

###1.2.3 Cost Function:

$J(c^1,....,c^m,\mu_1….,\mu_K)=\cfrac{1}{m}\sum_1^m||x^i-\mu_{c^i}||^2$ 失真代价函数（distortion）

找出 $m i n J$ 的 $c^1-c^m和\mu_1-\mu_K$ .

$数学证明可证明2过程中两个for循环实际上就是在选择c和\mu来minimize 损失函数J$

由于聚类中心随机初始化的随机性，聚类最终有可能会得到局部最优解，通常的解决方案是随机初始化50-1000次，运行50-1000次K-mean，然后选择Cost Function最小的那一种结果。

这种方法更适用于K取值较小时（如2-10次），当K取值较大时，随机初始化不会有太大的改善效果。这是因为K值较大时，往往没那么容易取到局部最优。

1. 通常我们会使用肘部法则（Elbow method）

我们取K为1，2，3，…并计算其代价函数J，如果得到下图所示的数据，那么K=3就是我们需要的K值了，因为K取3时，J在这里有个明显的转折点，很像人的肘部。

在这里插入图片描述

在实际过程中，得到的数据可能是如下图的曲线，那么Elbow method就不太管用了。

在这里插入图片描述

K-mean是无监督学习的代表算法，优点有模型简单、参数少、收敛速度也还不错。但缺点是非凸函数容易造成局部最优的问题，K值的选取难以把握。

关注