机器学习——聚类

最新推荐文章于 2024-02-03 13:19:39 发布

蜡笔小楚

最新推荐文章于 2024-02-03 13:19:39 发布

阅读量143

点赞数

文章标签：机器学习聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43492938/article/details/107918165

版权

无监督学习——聚类算法

把相似的个体统一起来，方便后续的操作。这里相似个体的生成是由计算机自己看成而不需要标签，所以称为无监督学习。

K-means算法

下图是没有标签的样本点，想通过算法自动实现分成两簇的任务；当然人很容易看出来怎样能够分成两类，但是机器采用了欧氏距离的方式来进行判别。

第一步，首先随机的选取两个中心点，或者说是分类聚类中心，如图中的红色和蓝色；
随机生成两个点
第二步，将所有的样本点到两个点的距离进行计算，并且将样本点标记到为到最近的中心点那个颜色，实现了初步的分类；
根据距离远近标记点
第三步，将同一类别的样本点数据，求各维度的均值，然后新的坐标为新的标记点；
新的中心点
重复第二步，重复计算样本点到标记点的距离，重新分类；
重新染色标记
重复第三步，再次刷新中心点的位置
重新刷新标记点
接下来不断的重复以上的步骤一、二，指导达到终止条件，比如中心位置不改变，或者达到迭代次数。

输入的参数：

K的大小
训练集(n维)

算法实现过程：
实际上，第一步的簇分配过程，以及中心点的再分配都是在优化代价函数。而实际上通过代价函数直接优化不太可实现。
算法过程
对于不分离的簇，K-means算法也能够将它们进行分离，知道顾客体重和身高，进行分簇，然后进行衣服型号的设计。
预测型号

优化目标

样本点到中心点的欧氏距离最小！它的优化其实就是算法原理中的不断迭代。
优化目标

随机初始化

有很多初始化的方法，但效果往往最好的是：
随机初始化：随机选取样本点中的K个当做分簇中点

局部最优解的情况：
为了防止这种情况，在聚类数在10以内时，可以初始化50-1000次，然后对不不同的最终优终点计算代价函数，选取最小的即可！

选取聚类数量

视化图、根据需要选择
根据自己的需要，或者直观看一下画出来的图来进行分类；实际就是根据自己的后续需求来进行选择。比如衣服要做3个型号的款式，则只需要3类就可以了。
T-shirt型号

Elbow Method
肘方法
但是有些时候会是没有肘的，不太好判断，因此可作为参考的方式。
畸形肘时

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习——聚类

无监督学习——聚类算法把相似的个体统一起来，方便后续的操作。这里相似个体的生成是由计算机自己看成而不需要标签，所以称为无监督学习。K-means算法
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。