聚类中各种算法比较和区别

两年半py练习生

于 2023-02-18 21:31:23 发布

阅读量321

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Golookahead/article/details/129105001

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

聚类（无监督学习）
1、K均值
根据事先给定的聚类数，为每个聚类随机分配中心点，计算所有样本与中心的
距离，将每个样本分配到与其距离最近的中心点所在的聚类中。再计算每个聚类的
几何中心，用该中心作为新的聚类中心，再次重新聚类。直到计算出的几何中心
与上一次的聚类使用的聚类中心重合或者足够接近为止。
特点：需要指定聚类数，聚类结果受到样本比例的影响，聚类中心的初始位置也会影响聚类结果。
2.均值漂移
把训练样本看成是服从某种概率密度函数的随机分布，在不断迭代过程中
试图寻找最佳的模式匹配，该密度函数的峰值点就是聚类中心，为该密度函数
所覆盖的样本及隶属于该聚类。
特点：不需要实现给定聚类数，算法本身具有发现聚类数量的能力。
3.凝聚层次算法
凝聚层次聚类，可以是自下而上（聚），也可以自上而下（分）
1.在自下而上算法中，每个训练样本都是单独的集群，根据样本之间的相似度，将其不断的合并
直到集群达到事先指定的聚类数为止。
2.在自上而下算法中，所有的训练样本被看做一个大的聚类，根据样本之间的差异度，将其不断拆分，直到
集群数达到事先指定的聚类数为止。
特点：不同于其他基于中心的聚类算法，用它对一些空间上具有明显连续性的，但彼此之间的距离未必最近
的样本，可以优先聚集，这样构成的聚类划分就能表现出比较强的连续性。

4.DBSCAN算法
朋友的朋友也是我的朋友
从任何一个训练样本出发，从一个事先给定的半径做圆，凡是不在此圆之外的样本都与圆心样本同类，
再以这些同类样本为中心做圆，重复以上过程，直到没有新的同类样本加入该聚类为止。

5.轮廓系数
表示聚类划分的内密外疏程度
轮廓系数主要以两个指标完成
a:一个样本与其所在的聚类其他样本的平均距离（内密）
b:一个样本与其距离最近的另一个聚类中样本的平均距离（外疏）
b - a
轮廓系数 = ------
max(a,b)
**针对一个数据集，其轮廓系数就是其中所有样本的轮廓系数的平均值，轮廓系数介于（-1,1）之间。
1表示完美聚类，-1表示错误聚类，0表示聚类重叠。