吴恩达机器学习个人笔记(七)-聚类

最新推荐文章于 2022-05-19 16:22:34 发布

「已注销」

最新推荐文章于 2022-05-19 16:22:34 发布

阅读量377

点赞数

分类专栏：机器学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Huang_cainiao/article/details/83217141

版权

本文是吴恩达机器学习课程的聚类笔记，主要介绍K-均值算法，包括算法流程、优化目标、随机初始化、选择聚类数的方法，以及聚类的相关资料。K-均值通过迭代找到数据的聚类结构，优化目标是最小化数据点到其所属聚类中心的距离之和。选择合适的聚类数通常需要借助肘部法则。

摘要由CSDN通过智能技术生成

聚类属于无监督学习。在之前的学习中，都是监督学习。监督学习与无监督学习的最大区别为训练数据集的特点，在监督学习中，训练集是有标签的，我们根据这些有标签的数据，训练出模型，输出相应的值。而在无监督学习中，我们的数据集没有标签，我们需要使用机器学习算法寻找出数据集中的内在结构。无监督学习的数据集如下所示

训练的数据集可以写成只有 $x^{(1)},x^{(2)}\cdots$ 一直到 $x^{(m)}$ ,没有任何的标签 $y$ 。上图中的数据可以看作两个分开的点集(称为簇)，能找出这些点集的算法就称为聚类算法。

1k-均值算法

k-均值算法是最普及的算法，该算法接受一个未标记的数据集，然后将数据集聚类成不同的类。k-均值算法是一种迭代算法,假设我们将数据聚类成n个组，那么步骤如下：

首先随机选择K个随机点，称为聚类中心（cluster centroids）。对于数据集中的每个数据，计算他们与这些K个聚类中心的距离，然后将其与之关联起来(可认为每个组即为一个类，关联即属于该类)，将所有与这个聚类中心关联的点归为一类。

下一步是重新设置聚类中心，计算每一个组的平均值，将聚类中心的坐标移动到平均值的位置。

然后不断进行这两个步骤的迭代，直到聚类中心点不再变化。

迭代10次，用 $\mu ^{1},\mu ^{2},\cdots \mu ^{k}$ 来表示聚类中心，用 $c^{1},c ^{2},\cdots c ^{k}$ 来存储与第个实例数据最近的聚类中心的索引，k-均值算法的伪代码如下所示：

Repeat{

for =1 to

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。