有了K均值聚类，为什么还需要DBSCAN聚类算法？

最新推荐文章于 2024-08-29 20:21:32 发布

「已注销」

最新推荐文章于 2024-08-29 20:21:32 发布

阅读量1k

点赞数 1

分类专栏：热点文章 AI 文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/106080481

版权

DBSCAN是一种基于密度的聚类算法，不同于依赖于预设聚类数量的K均值。DBSCAN能发现不同形状和大小的聚类，对噪声和异常值容忍度高，无需指定聚类数量。它通过ε和minPts参数来确定邻域和密度，能处理非凸形状的聚类。相比于K均值，DBSCAN在参数调整上更具挑战性，但在处理复杂分布时效果更优。

摘要由CSDN通过智能技术生成

全文共3138字，预计学习时长16分钟

有了K均值聚类，为什么还需要DBSCAN聚类算法？

图源：unsplash

聚类分析是一种无监督学习法，它将数据点分离成若干个特定的群或组，使得在某种意义上同一组中的数据点具有相似的性质，不同组中的数据点具有不同的性质。

聚类分析包括基于不同距离度量的多种不同方法。例如。K均值（点之间的距离）、Affinity propagation（图之间的距离）、均值漂移（点之间的距离）、DBSCAN（最近点之间的距离）、高斯混合（到中心的马氏距离）、谱聚类（图之间距离）等。

有了K均值聚类，为什么还需要DBSCAN聚类算法？

2014年，DBSCAN算法在领先的数据挖掘会议ACM SIGKDD上获得the testof time奖（授予在理论和实践中受到广泛关注的算法）。

所有聚类法都使用相同的方法，即首先计算相似度，然后使用相似度将数据点聚类为组或群。本文将重点介绍具有噪声的基于密度的聚类方法（DBSCAN）。

既然已经有了K均值聚类，为什么还需要DBSCAN这样的基于密度的聚类算法呢？

K均值聚类可以将松散相关的观测聚类在一起。每一个观测最终都成为某个聚类的一部分，即使这些观测在向量空间中分散得很远。由于聚类依赖于聚类元素的均值，因此每个数据点在形成聚类中都起着作用。

数据点的轻微变化可能会影响聚类结果。由于聚类的形成方式，这个问题在DBSCAN中大大减少。这通常不是什么大问题，除非遇到一些具有古怪形状的数据。

使用K均值的另一个困难是需要指定聚类的数量（“k”）以便使用。很多时候不会预先知道什么是合理的k值。

DBSCAN的优点在于，不必指定使用它的聚类数量。需要的只是一个计算值之间距离的函数，以及一些将某些距离界定为“接近”的指令。在各种不同的分布中，DBSCAN也比K均值产生更合理的结果。下图说明了这一事实:

有了K均值聚类，为什么还需要DBSCAN聚类算法？

有了K均值聚类，为什么还需要DBSCAN聚类算法？

基于密度的聚类算法

基于密度的聚类是无监督学习法，基于数据空间中的聚类是高点密度的连续区域，通过低点密度的连续区域与其他此类聚类分离，来识别数据中独特的组/聚类。

具有噪声的基于密度的聚类方法(DBSCAN)是基于密度聚类的一种基本算法。它可以从大量的数据中发现不同形状和大小的聚类，这些聚类中正包含着噪声和异常值。

DBSCAN算法使用以下两种参数：

· eps (ε)：一种距离度量，用于定位任何点的邻域内的点。

· minPts：聚类在一起的点的最小数目（一个阈值），使一个区域界定为密集。

如果探究

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2070: 原创

-: 周排名

-: 总排名

345万+: 访问

: 等级

4万+: 积分

4916: 粉丝

4457: 获赞

1312: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

热点文章 552篇
AI 1079篇
热点文章 559篇
干货文章 39篇
热门文章 1篇
学术报告 11篇
干货文章 69篇
学术报告

最新评论

快换浏览器吧！Google Chrome是最烂的浏览器
小没苯agoe: 赞同！！！edge比chrome快22%，firefox比chrome快16%!
提前返回有好处吗？
温庭筠: 我不使用提前返回, 因为接手别人的代码时确实比较难理解一旦代码达到了维护阶段，新手程序员试图推理逻辑时，多次返回就会大大影响他们的效率（当注释比较分散，代码模糊不清时尤其糟糕）
在Windows系统和Linux系统中，如何打造一个好终端？
全栈小5: 文章结构严谨，每次阅读都能收获知识，感谢博主的分享，期待博主继续更新高质量文章，支持！【如何让windows终端和linux一样好用，博主这篇文章，值得一看】
NLP入门第一步：6种独特的数据标记方式
麦甜守望者: 有中文怎么标注的吗？
海量案例！生成对抗网络（GAN）的18个绝妙应用
PreWisdom: 18 Impressive Applications of Generative Adversarial Networks (GANs) by Jason Brownlee on July 12, 2019 in Generative Adversarial Networks https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/ 你知道我要说什么吧，你这完全是把别人的文章简单翻译了一下搬过来了，然后你发原创，真行啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。