机器学习之密度聚类及代码示例

本文深入探讨了密度聚类思想,重点介绍了DBSCAN算法及其概念、流程,并提到了密度最大值聚类,分析了局部密度和更高局部密度点的最小距离在识别簇中心和噪声中的作用。最后,通过代码示例对比了DBSCAN与K-Means的聚类效果。
摘要由CSDN通过智能技术生成

一、密度聚类

密度聚类的思想,在于通过计算样本点的密度的大小来实现一个簇/类别的形成,样本点密度越大,越容易形成一个类,从而实现聚类。

密度聚类算法可以克服基于距离的聚类算法只能发现凸型集合的缺点,其可根据密度的分布发现任意形状的聚类,且对噪声数据不敏感。

因密度聚类算法需计算每个样本点附件的样本密度,因此计算复杂度比较大。

二、DBSCAN算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法,一个比较具有代表性的基于密度的聚类算法。与划分聚类、层次聚类不同的是,它将簇定义为密度相连的样本点的最大集合,可在有噪声样本的样本集中发现任意形状的簇。

1、DBSCAN算法的一些概念

a. 对象:可看作样本点

b. 对象的 这里写图片描述 - 邻域:给定对象在半径 这里写图片描述 内的区域。

c. 核心对象:给定一个数目 m ,如果一个对象的 这里写图片描述 - 邻域至少包含 m 个对象,则称该对象为核心对象。

d. 直接密度可达:如果对象 p 是在 对象 q 的 这里写图片描述 - 邻域内,且对象 q 是一个核心对象。我们可以说从对象 q 出发,对象 p 是直接密度可达的。

e. 密度可达:如果对象 p 是从对象 q 出发关于 这里写图片描述 和 m(含义同上)直接密度可达的;又有 如果对象 r 是从对象 p 出发关于 这里写图片描述 和 m 直接密度可达的,那么对象 r 是从对象 q 出发关于 这里写图片描述 和 m 密度可达的;

f. 密度相连:若存在一个对象 o ,使得对象 p 和 q 是从 对象 o 关于 这里写图片描述 和 m 密度可达的,那么对象 p 和 q 是关于

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值