DBSCAN的核心思想是从某个核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点密度相连。
邻域:对任意一个点p,其邻域定义为:。
密度:设,则为的密度。
核心点:设,若,则称为中的中心点,中心点构成的集合为。
边界点:设,且落在某个核心点的邻域内。一个边界点可能落在多个核心点的邻域内。
直接密度可达:设,若满足且,则称从直接密度可达。
密度可达:假设存在一串点,使得从是直接密度可达的,那么就认为从密度可达。
密度相连:假设存在点,其中均从密度可达,那么和密度相连。密度相连具有对称性。
类簇:设非空集合,若满足:
(1),且从密度可达,那么。
(2)和密度相连。则称构成一个类簇。
缺点:DBSCAN使用了统一的邻域值和值,在类中的数据分布密度不均匀时,较小时,密度小的cluster会被划分成多个性质相似的cluster;较大时,会使得距离较近且密度较大的cluster被合并成一个cluster。在高维数据时,因为维数灾难问题,的选取比较困难。
优点:能发现任意形状的聚簇,聚类结果几乎不依赖于结点遍历顺序,能够有效的发现噪声点。