【机器学习】密度聚类算法之HDBSCAN

最新推荐文章于 2024-08-09 08:19:24 发布

置顶

菜小白—NLP

最新推荐文章于 2024-08-09 08:19:24 发布

阅读量1.2w

点赞数 21

分类专栏： ML

本文链接：https://blog.csdn.net/ACM_hades/article/details/90906677

版权

本文介绍了HDBSCAN算法，一种结合DBSCAN与层次聚类的密度基空间聚类方法。HDBSCAN通过空间变换、最小生成树构建、聚类树压缩和簇提取等步骤，能发现不同密度的聚类并具有更好的参数选择鲁棒性。文章详细阐述了算法的每个阶段，包括核心距离、互达距离的概念，以及如何通过最小生成树构建聚类层次结构。

摘要由CSDN通过智能技术生成

链接

前导篇：【机器学习】聚类算法之密度聚类(DBSCAN)
前导篇：【机器学习】密度聚类算法之OPTICS
参考链接：https://hdbscan.readthedocs.io/en/latest/how_hdbscan_works.html
HDBSCAN API 使用参考链接：https://hdbscan.readthedocs.io/en/latest/api.html

一、概述

先看一下HDBSCAN的具体定义：HDBSCAN – Hierarchical Density-Based Spatial Clustering of Applications with Noise. Performs DBSCAN over varying epsilon values and integrates the result to find a clustering that gives the best stability over epsilon. This allows HDBSCAN to find clusters of varying densities (unlike DBSCAN), and be more robust to parameter selection.
可以知道是DBSCAN算法与基于层次聚类算法结合而来的，其实HDBSCAN算法是对OPTICS算法的一种改进。
HDBSCAN算法的具体过程分为以下几步
- 空间变换
- 构建最小生成树
- 构建聚类层次结构(聚类树)
- 压缩聚类树
- 提取簇

二、空间变换

核心距离：我们将样本与第k个最近邻样本点的距离称为核心距离，并表示为 $core_k (x)$ ：
$core_k (x)=d(x,N^k (x))$
互达距离:两个样本点的互达距离定义为： $d_{mreach-k} (a,b)=max \{core_k (a),core_k (b),d(a,b)\}$