最近接触到Dbscan算法,所以相对其进行研究,就多方面参考资料进行总结,下面是我的小小总结,希望博友们一起讨论!
一、基于密度的聚类算法的概述
Dbscan算法:全称为:Density-Based Spatial Clustering of Applications with Noise(具有噪声的基于密度的聚类方法)。这是一种基于密度的聚类算法,能够除去噪音点,并且聚类的结果是划分为多个簇,簇的形状是任意的。基于密度的聚类算法都是寻找被低密度区域分离的高密度区域。
基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的聚类,这对于带有噪音点的数据起着重要的作用。
二、基本概念
DBSCAN(Density-Based Spatial Clustering of Application with Noise)是一种典型的基于密度的聚类算法,在DBSCAN算法中将数据点分为一下三类:
核心点。在半径Eps内含有超过MinPts数目的点
边界点。在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内
噪音点。既不是核心点也不是边界点的点
在这里有两个量,一个是半径Eps,另一个是指定的数目MinPts。
一些其他的概念
Eps邻域。简单来讲就是与点的距离小于等于Eps的所有的点的集合,可以表示为。
直接密度可达。如果在核心对象的Eps邻域内,则称对象从对象出发是直接密度可达的。从字面上,给人的感觉就是某点p在一个密度范围内可以找到点q。
密度可达。对于对象链:,是从关于