要讲HDBSCAN之前需要了解DBSCAN聚类算法
一、DBSCAN聚类
DBSCAN需要设置两个参数,半径R和核心点最小覆盖点数MinPts,有几个重要概念
- 核心点:在半径R的圆圈内,包含覆盖大于等于MinPts邻近点
- 边界点:被包含在核心点R邻域内的点非核心点称为边界点
- 噪音点:既不是核心点也不是边界点的点称为噪音点
- 直接密度可达:核心点对其R领域的覆盖点都是直接密度可达的(直接密度可达没有相互性,即a到b密度直接可达,不一定b到a直接密度可达)
- 密度可达:密度可达是一个传导的概念,如果a点直接密度可达b点,b点直接可达c点,则成c点从a点密度可达(同直接密度可达,密度可达没有相互性)
伪代码很清晰这里就直接引用了 [1],直白点解释下代码内容即:遍历所有的点,不重复遍历,不是核心点的直接标记为噪音点,如果是核心点则将该点与其领域点加入聚类簇中,并遍历所有领域点找到是否存在核心点,如果存在核心点则继续添加核心点及领域点,直到领域点中不存在