【机器学习】聚类算法

最新推荐文章于 2023-11-24 11:16:29 发布

张小猪的家

最新推荐文章于 2023-11-24 11:16:29 发布

阅读量643

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_39574469/article/details/119683148

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

- 聚类算法

聚类算法

1.聚类算法的概念

⼀种典型的⽆监督学习算法，主要⽤于将相似的样本⾃动归到⼀个类别中。

在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算⽅法，会得到不同的聚类结果，常⽤的相似度计算⽅法有欧式距离法。

聚类算法是⽆监督的学习算法，⽽分类算法属于监督的学习算法。

2.聚类算法实现流程

k-means聚类步骤

1、随机设置K个特征空间内的点作为初始的聚类中⼼
2、对于其他每个点计算到K个中⼼的距离，未知的点选择最近的⼀个聚类中⼼点作为标记类别
3、接着对着标记的聚类中⼼之后，重新计算出每个聚类的新中⼼点（平均值）
4、如果计算得出的新中⼼点与原中⼼点⼀样（质⼼不再移动），那么结束，否则重新进⾏第⼆步过程

由于每次都要计算所有的样本与每⼀个质⼼之间的相似度，故在⼤规模的数据集上，K-Means算法的收敛速度⽐较慢。

在这里插入图片描述

3.模型评估

3.1 误差平⽅和(SSE \The sum of squares due to error)

在这里插入图片描述

3.2 “肘”⽅法 (Elbow method) — K值确定

在这里插入图片描述
（1）对于n个点的数据集，迭代计算k from 1 to n，每次聚类完成后计算每个点到其所属的簇中⼼的距离的平⽅和；
（2）平⽅和是会逐渐变⼩的，直到k==n时平⽅和为0，因为每个点都是它所在的簇中⼼本身。
（3）在这个平⽅和变化过程中，会出现⼀个拐点也即“肘”点，下降率突然变缓时即认为是最佳的k值。
在决定什么时候停⽌训练时，肘形判据同样有效，数据通常有更多的噪⾳，在增加分类⽆法带来更多回报时，我们停⽌增加类别。

3.3 轮廓系数法（Silhouette Coefficient）

结合了聚类的凝聚度（Cohesion）和分离度（Separation），⽤于评估聚类的效果：
在这里插入图片描述

⽬的：

内部距离最⼩化，外部距离最⼤化

计算样本i到同簇其他样本的平均距离ai，ai 越⼩样本i的簇内不相似度越⼩，说明样本i越应该被聚类到该簇。
计算样本i到最近簇Cj 的所有样本的平均距离bij，称样本i与最近簇Cj 的不相似度，定义为样本i的簇间不相似度：bi =min{bi1, bi2, …, bik}，bi越⼤，说明样本i越不属于其他簇。
求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。
平均轮廓系数的取值范围为[-1,1]，系数越⼤，聚类效果越好。
簇内样本的距离越近，簇间样本距离越远