DBSCAN聚类算法——机器学习

最新推荐文章于 2024-08-29 20:21:32 发布

NO23412号菜狗

最新推荐文章于 2024-08-29 20:21:32 发布

阅读量692

点赞数 2

分类专栏： python代码包算法量化

本文链接：https://blog.csdn.net/dudu3332/article/details/109482657

版权

一、前言

去年学聚类算法的R语言的时候，有层次聚类、系统聚类、K-means聚类、K中心聚类，最后呢，被DBSCAN聚类算法迷上了，为什么呢，首先它可以发现任何形状的簇，其次我认为它的理论也是比较简单易懂的。今年在python这门语言上我打算好好弄弄DBSCAN。下面贴上它的官方解释：

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

二、DBSCAN聚类算法

文字看不懂看下面这个图。下面这些点是分布在样本空间的众多样本，现在我们的目标是把这些在样本空间中距离相近的聚成一类。我们发现A点附近的点密度较大，红色的圆圈根据一定的规则在这里滚啊滚，最终收纳了A附近的5个点，标记为红色也就是定为同一个簇。其它没有被收纳的根据一样的规则成簇。（形象来说，我们可以认为这是系统在众多样本点中随机选中一个，围绕这个被选中的样本点画一个圆，规定这个圆的半径以及圆内最少包含的样本点，如果在指定半径内有足够多的样本点在内，那么这个圆圈的圆心就转移到这个内部样本点，继续去圈附近其它的样本点，类似传销一样，继续去发展下线。等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值，就停止了。那么我们称最开始那个点为核心点，如A，停下来的那个点为边界点，如B、C，没得滚的那个点为离群点，如N）。