第十四章无监督学习

最新推荐文章于 2024-03-20 20:16:46 发布

今天我要睡午觉

最新推荐文章于 2024-03-20 20:16:46 发布

阅读量122

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/blzhizhuang/article/details/118330906

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

目录

1 无监督学习概述

2 K-Means聚类算法

5 确定聚类数

1 无监督学习概述

无监督学习的概念我们在前面已经提到，即我们所获得的训练集样本数据没有标签，只有特征，用图像表示：

2 K-Means聚类算法

由于训练集样本数据没有标签，我们需要用算法将数据划分为具有内在关联的子集，也被称之为簇，而划分簇的算法被称之为聚类算法，今天我们学习的K均值算法就是一种具有代表性的聚类算法。

K均值算法的流程如下：

第一步：随机选择两个点，也叫聚类中心，就是上图中红色和蓝色的点。

第二步：K均值算法是一个迭代的算法，迭代过程包括两部分，一件是簇分配，另一件是移动聚类中心。簇分配是指遍历所有样本点，根据每个绿色的点是更靠近红色还是蓝色的点将所有点分到两个不同的聚类中心。在执行分配操作后

移动聚类中心是指将中心点移动至两类数据的中心位置，移动后结果如图所示：

然后就是不断重复这两步直到中心不变，也就是算法收敛，找到了最有关联的两个簇。

K均值算法需要两个参数，分别是聚类数K，以及训练集。

以下是K均值算法的过程。

第一步：随机初始化K个聚类中心，记为： $u_{1}u_{2}u_{3}$

第二步：迭代，迭代包括两个循环，一是对于每个样本，用 $c^{(i)}$ 表示聚类中心中最接近 $x^{(i)}$ 的中心的下表。二是移动聚类中心将中心值放在分好的簇的均值 $u_{(k)}$ 位置。

3 优化

为了得到最适合的模型，聚类算法同样要评估并最小化聚类代价，我们设置代价函数如下所示：

J函数也叫失真代价函数，通过其收敛与否可以判断算法是否正常工作。我们将参数分成两部分，分别是c和u，先优化c,再优化u。两次优化过程都要固定未优化的那部分参数。

4 初始化

在一开始选择初始化聚类中心时要保证聚类中心K值少于样本总数m,另外为了防止造成局部最优，我们采取随机初始化：

但是随机初始化同样无法保证不陷入局部最优，为此我们选择初始化多次（50-1000），选择每次初始化后J值最小后的初始化结果。

5 确定聚类数

观察上图可知，有时我们可以获得类似左图的代价函数曲线，这时在K=3处可以获得一个肘点，我们选择这个点作为K值，我们称之为肘部法则。但是有时也会获得右边的图像，这时就要联系实际判断K值选择。

今天我要睡午觉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。