机器学习-密度聚类算法(DBSCAN)

1.密度聚类
基于密度的聚类算法由于能够发现任意形状的聚类,识别数据集中的噪声点,可伸缩性好等特点,在许多领域有着重要的应用。

密度算法概念:
1)如果一个数据点周围足够稠密,也就是以这个点为中心,给定半径的邻域内的数据点足够多,密度大于密度阈值(用户指定的参数MinPts),则称这个数据点为核心数据点,否则为边界数据点。
2)研究数据点之间的关系,如果p是一个核心数据点,q属性p的yita邻域,则称q是从p直接密度可达的。
3)如果存在一条链{p1,p2,…,pi},满足p1=p,pi=q,pi直接密度可达pi+1,则称p密度可达q。
4)如果存在r,r密度可达q和p,则称p和q是密度相连的。
5)由于一个核心数据点和其他密度可达的所有数据点构成一个聚类。
DBSCAN算法:
DBSCAN算法思想:寻找数据集D的子集S,S包含于D,S是密度相连的闭集,S满足S中任意两点是密度相连的,并且S中任意点不能和S外的点是密度相连的。DBSCAN从任意一数据点p开始,根据参数yita和MinPts,提取所有从p密度可达的数据点,得到一个聚类。
DBSCAN算法的步骤如下:
1)从任一数据点p开始,对p点数据yita和MinPts进行判定。如果p是核心数据点,则建立新簇S,并将p邻域内的所有点归入S,否则将p点标记为边界点或噪声点。
2)对于S中除p点以外的点继续实施过程1),继续扩充S,直到所有的点都被判定处理。
DBSCAN算法的优点:不易受噪声影响,可以发现任意形状的簇。DBSCAN算法的缺点:受设置参数的影响,判定的标准比较固定,较稀的聚类会被划分为多个类,或密度较大且离得较近的类会被合并成一个聚类。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值