10 - L8 机器学习 | K-means聚类算法_kmeans新增归类-CSDN博客

本文链接：https://blog.csdn.net/hazel_cjx/article/details/141972728

🍨 本文为🔗365天深度学习训练营 中的学习记录博客
🍖 原作者：K同学啊

1. 聚类算法是什么？

聚类就是将一个庞杂数据集中具有相似特征的数据自动归类到一起，称为一个簇，簇内的对象越相似，聚类的效果越好。“相似”这一概念，是利用距离标准来衡量的，我们通过计算对象与对象之间的距离远近来判断它们是否属于同一类别，即是否是同一个簇。

聚类是一种无监督学习（Unsupervised Learning）的方法，不需要预先标注好训练集。聚类与分类最大的区别就是分类的目标事先已知，对于一个动物集来说，你并不清楚这个数据集内部有多少种类的动物，你能做的只是利用聚类方法将它自动按照特征分为多类，然后人为给出这个聚类结果的定义（即簇识别）。例如，你将一个动物集分为了三簇（类），然后通过观察这三类动物的特征，你为每一个簇起一个名字，如大象、狗、猫等，这就是聚类的基本思想。

K-means就是一个聚类的算法，属于无监督学习算法，也是就样本没有标签。算法会根据某种规则进行“分割”，把相同的或者相近的数据放在一起。K-means算法的基本思想是通过不断更新簇的中心点，将数据集划分为预定数量的簇。这一过程涉及到计算数据点之间的距离，通常使用欧式距离作为相似性度量。在算法执行过程中，每个数据点被分配到距离最近的簇，然后更新簇的中心，迭代进行直至收敛。