无监督学习之DBSCAN算法

荼靡~

已于 2022-11-09 14:54:12 修改

阅读量527

点赞数

分类专栏： # 机器学习笔记文章标签： python sklearn dbscan算法无监督学习

于 2022-11-09 10:33:59 首次发布

本文链接：https://blog.csdn.net/m0_46926492/article/details/127763198

版权

31 篇文章 5 订阅

订阅专栏

属性概念

属性	概念
核心对象	若某个点的密度达到算法设定的阈值则其为核心点。（即 r 邻域内点的数量不小于 number个数量）
边界点	属于某一个类的非核心点,不能在与下一个点密度相连【属于一类的最边界的点，离核心点最远】
ϵ-邻域的距离阈值	设定的半径r
密度相连	若从某核心点q出发，点q和点k都是密度可达的 ,则称点q和点k是密度相连的。
直接密度可达	若某点p在点q(q是核心点)的 r 邻域内，则p-q直接密度可达。
密度可达	若有一个点的序列 $q^0、q^1、…q^k$ ，对任意 $q^i-q^{i-1}$ 是直接密度可达，则称从 $q^0$ 到 $q^k$ 密度可达,称为直接密度可达的“传播”。
噪声点	不属于任何一个类簇的点，从任何一个核心点出发都是密度不可达【不能分类到任何一个簇】，即此算法可以对数据进行异常值检测

在这里插入图片描述

参数	含义
半径r	可以根据K距离来设定：找突变点
K距离	给定数据集`P={p(i); i=0,1,…n}`，计算点`P(i)`到集合D的子集S中所有点之间的距离，距离按照从小到大的顺序排序，d(k)就被称为k-距离。
`MinPts`	k-距离中k的值，一般取的小一些，多次尝试