抛物线的中点生成算法_HDBSCAN算法理解

最新推荐文章于 2024-07-02 13:59:33 发布

weixin_39849239

最新推荐文章于 2024-07-02 13:59:33 发布

阅读量182

点赞数

文章标签：抛物线的中点生成算法

要讲HDBSCAN之前需要了解DBSCAN聚类算法

一、DBSCAN聚类

DBSCAN需要设置两个参数，半径R和核心点最小覆盖点数MinPts，有几个重要概念

核心点：在半径R的圆圈内，包含覆盖大于等于MinPts邻近点
边界点：被包含在核心点R邻域内的点非核心点称为边界点
噪音点：既不是核心点也不是边界点的点称为噪音点
直接密度可达：核心点对其R领域的覆盖点都是直接密度可达的（直接密度可达没有相互性，即a到b密度直接可达，不一定b到a直接密度可达）
密度可达：密度可达是一个传导的概念，如果a点直接密度可达b点，b点直接可达c点，则成c点从a点密度可达（同直接密度可达，密度可达没有相互性）

DBSCAN算法伪代码

伪代码很清晰这里就直接引用了 ^[1]，直白点解释下代码内容即：遍历所有的点，不重复遍历，不是核心点的直接标记为噪音点，如果是核心点则将该点与其领域点加入聚类簇中，并遍历所有领域点找到是否存在核心点，如果存在核心点则继续添加核心点及领域点，直到领域点中不存在核心点，则该类簇聚类完毕。通过上述描述，因为要反复算所有点与其它点之间的距离，所以时间复杂度O(N^2)，可以使用R-tree,kd-tree,ball-tree进行加速，提速至O(NlogN)，后面再补上优化方法的解释

DBSCAN算法的缺点分析

领域半径R和MinPts需要人工设置，在类间距离不均衡的情况下很难选择合适的参数
数据量过多时对内存的开销压力大，计算成本高
距离的衡量通常使用欧式距离，维度过大会造成维数灾难，附上维数灾难的讲解最全面的一篇文章，值得多看几遍

柳枫：维度灾难zhuanlan.zhihu.com

维度灾难看完第一遍的理解：特征维度过高，需要更大的数据集才能充分的对数据进行学习而不至于过拟合，因为在高维度空间寻找一个超平面对数据进行切分变得越来越容易，换句话说在数据样本不变的情况下，在高维空间找到一个切割平面的难度是下降的，所以小数据量伴随着高维的数据容易造成特征层面上的过拟合，以往在数据建模过程中只在意了模型的复杂度造成的过拟合，在特征维度足够高的情况下其实是等同于增加了简单模型的复杂度，所以高维的特征时倾向于使用lr模型，不仅仅是因为计算速度够快，还是因为特征的复杂度已经足够使用简单模型来达到效果。 维度灾难开完第二遍的理解：第二遍更注重对高维空间样本之间距离衡量的无效性的理解上，从感性上理解维度过高时，个别维度的数值差异很难对样本的距离进行区分，也就是文章中所说的样本间的距离度量会收敛，从而难以对样本进行距离上的衡量区分。