机器学习-聚类算法整理

最新推荐文章于 2025-04-02 08:39:04 发布

ffchenger_ML

最新推荐文章于 2025-04-02 08:39:04 发布

阅读量244

点赞数

分类专栏：机器学习文章标签：机器学习无监督聚类

本文链接：https://blog.csdn.net/weixin_39121308/article/details/103061457

版权

1 篇文章

订阅专栏

聚类算法的选型与评估

相比于监督学习，非监督学习通常没有标注数据，为了对分布的数据集合选择合适的算法模型同时评估不同聚类算法性能的优劣需要了解常见的数据簇的特点。

数据集合倾向于球形分布，通常中心被定义为质心（词数据簇的几何平均值）：

估计聚类趋势
1. 检验数据分布是否存在非随机分布（对于随机分布的数据集合，聚类误差随聚类类别数量的增加变化幅度不显著，简而言之无法获取一个合适的k对数据集合进行聚类）
2. 检测方法：
  1. 通过霍普金斯统计量（Hopkin Statistics）判定数据在空间上的随机性
判定数据簇数
1. 找到与真实数据分布最为吻合的簇数
2. 检测方法：
  1. 手肘法、Gap Statistics等
测定聚类质量
1. 可以通过考察簇的分离情况和簇的紧凑情况来评估聚类的效果。
2. 常用的检测指标
  1. 轮廓系数：反映的是一个簇中的点和该簇中的其他点的紧密程度对比和其他簇的分离程度
  2. 均方根标准偏差，用于衡量簇的同质性（紧凑程度）
  3. R方，用于衡量聚类的差异度（表示聚类前和聚类后平方误差的改进程度）
  4. 改进的Hubert统计