6. DBSCAN浮光略影

最新推荐文章于 2023-04-01 13:35:58 发布

华间一壶酒

最新推荐文章于 2023-04-01 13:35:58 发布

阅读量166

点赞数

分类专栏：机器学习文章标签：机器学习聚类

本文链接：https://blog.csdn.net/qq_24846511/article/details/110847086

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

6. DBSCAN浮光略影

学机器学习易陷入一个误区：以为机器学习是若干种算法（方法）的堆积，熟练了“十大算法”或“二十大算法”一切即可迎刃而解，于是将目光仅聚焦在具体算法推导和编程实现上；待到实践发现效果不如人意，则又转对机器学习发生怀疑。须知，书本上仅能展示有限的典型“套路”，而现实世界任务千变万化，以有限之套路应对无限之变化，焉有不败！现实中更多更多时候，需要根据任务特点对套路进行改造融通。算法是“死”的，思想才是“活”的。欲行此道，则务须把握算法背后的思想脉络，无论创新科研还是应用实践，皆以此为登堂入室之始。

--西瓜书

DBSCAN是一种基于密度的聚类方法，把空间中扎堆的样本视为一类，类和类之间由低密度区域隔开，把不在任何一类的数据视为异常。那么要怎么样刻画“密度”这一概念呢？

DBSCAN通过2个参数esp 和 min_samples把样本点分为3类：核心点，边缘点和异常点。

核心点。指在 $\epsilon$ 邻域内至少包含min_samples个样本的点。
边缘点。指在核心点 $\epsilon$ 邻域内，但是自己的邻域内的点的数目小于min_samples。边缘点在簇的边缘。
异常点。不在任何核心点的邻域内的点被划为异常。

因此一类样本点包括核心点和边缘点，也就是密度大的点。异常点即为密度小的点。调大min_samples或调小esp会提高簇的密度。参数min_samples主要控制对噪声的容忍度。在有噪声和大数据集上，可以增大这个参数。参数esp是至关重要的，需要根据数据的特点自行设置。

下图（来自sklearn）大点表示核心点，小点表示边缘点，黑点表示异常点。

图片来自sklearn示例

杂记

以前以为聚类需要知道类个数
算法实现使用ball trees，kd-trees来确定点的邻居，这避免了计算完整的距离矩阵。找机会看下ball trees，kd-trees.
sklearn文档中提到“Due to this rather generic view, clusters found by DBSCAN can be any shape, as opposed to k-means which assumes that clusters are convex shaped.”凸是因为kmearns要计算到中心的距离，所以一定是凸的。
数据的输入顺序会影响聚类结果。原因一是有一些边缘点既在A类核心点的邻域内，也在B类核心点的邻域内，先聚A类的话，这些点就会被归为A类，先聚B类的话，这些点就会被归为B类；另一个原因是简单的记号问题，举例来说假设按ABC三类数据按顺序输入，那么算法给出的标签是123，要是按照BAC的顺序输入，算法给出的标签也是123。也就是说算法已经区分开3类了，只是给的代号不同罢了。

参考：
5. sklearn
6. 西瓜书

华间一壶酒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
6. DBSCAN浮光略影

6. DBSCAN浮光略影学机器学习易陷入一个误区：以为机器学习是若干种算法（方法）的堆积，熟练了“十大算法”或“二十大算法”一切即可迎刃而解，于是将目光仅聚焦在具体算法推导和编程实现上；待到实践发现效果不如人意，则又转对机器学习发生怀疑。须知，书本上仅能展示有限的典型“套路”，而现实世界任务千变万化，以有限之套路应对无限之变化，焉有不败！现实中更多更多时候，需要根据任务特点对套路进行改造融通。算法是“死”的，思想才是“活”的。欲行此道，则务须把握算法背后的思想脉络，无论创新科研还是应用实践，皆以此为登
复制链接

扫一扫

专栏目录