基本名词
DBSCN 是根据密度分组的聚类算法
核心对象: 弱某个点的密度达到算法设定的阈值则这个点是核心点
ϵ
\epsilon
ϵ- 邻域的距离阈值: 设定的半径r参数
直接可达密度: A,B 两点的距离小于r AB就是直接可达
密度可达: ABC 三点 AB距离小于r BC距离小于r AC距离大于r AC两点叫做密度可达
边界点: 有属于他的簇 但是没有下线的点
噪声点: 不属于任何一个簇的点
分组的过程
DSSCN 就类似传销组织 开始找一个随机点A,找到以A这个点为圆心r为半径的所有点 看看密度是否大于阈值 如果大于阈值 这个A点被定为核心对象 ,继续把属于A点的下线A1为圆心r为半径找其他下线 ,直到An没有下线了 An就是边界点 A点的所有直接 间接下线 就是一个族
DBSCN算法的优点就是可以实现任意不规则分布样本的分类
缺点就是样本如果特征值比较多的话 速度慢