🧠 【ShuQiHere】 🎓
目录 📜
1. DBSCAN 简介 🔍
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的聚类算法)是一种通过密度来确定簇的无监督学习算法。与 K-means 不同,DBSCAN 不需要事先指定簇的数量,而是根据数据点的密度来自动确定簇的数量。同时,DBSCAN 能识别数据中的噪声点,并且适用于复杂形状的簇。🎯
DBSCAN 在实际应用中非常有用,特别是在处理地理数据、天文数据、以及需要识别噪声点的场景中。它的灵活性使得它在复杂数据集上表现非常出色。
2. DBSCAN 的工作原理 🛠️
DBSCAN 通过密度来定义簇。它通过寻找密度足够高的区域,将这些区域中的点划分为一个簇。如果某个区域的点密度低于设定阈值,则这些点被标记为噪声点。算法依赖于两个关键参数:ε 和 minPts。
2.1 核心概念 📚:
- ε 邻域(Epsilon Neighborhood):给定一个数据点 ( p ),其 ε 邻域包含所有距离 ( p ) 小于等于 ε 的点,即满足以下条件的所有点:
N ε ( p ) = { q ∈ D ∣ d ( p , q ) ≤ ε } N_{\varepsilon}(p) = \{q \in D | d(p, q) \leq \varepsilon\} Nε(p)