密度聚类算法详解
简介
密度聚类(Density-Based Clustering)是一种基于数据点密度的无监督学习算法。最常用的密度聚类算法是DBSCAN(Density-Based Spatial Clustering of Applications with Noise),它通过识别高密度区域并将低密度区域视为噪声点来发现任意形状的簇。DBSCAN广泛应用于地理空间数据分析、图像处理、市场营销等领域。
DBSCAN的基本概念
- 核心点(Core Point):如果一个点的邻域内至少包含指定数量的点(MinPts),则该点为核心点。
- 边界点(Border Point):一个点不满足核心点条件,但在某个核心点的邻域内,则该点为边界点。
- 噪声点(Noise Point):既不是核心点也不是边界点的点为噪声点。
- 邻域(Neighborhood):以某个点为中心,半径为(\epsilon)的圆形区域内的所有点。
DBSCAN算法流程
- 初始化:标记所有点为未访问。
- 随机选择一个未访问的点:
- 如果该点是核心点,则以该点为起点,形成一个簇,并将簇内所有点标记为已访问。
- 如果该点是边界点或噪声点ÿ