dbscan算法中 参数的意义_基于变参数的DBSCAN算法

安全模型、算法与编程 ‖34‖ 基于变参数的 DBSCAN 算法 ◆付泽强 王晓锋 (江南大学物联网工程学院 江苏 214122) 摘要:DBSCAN 算法是一种常用的基于密度的聚类算法,其优点在于性能较为优越,不受数据的分布状态影响,可以发现不规则形状的簇。但是当数据密度分布是不均匀的时候,半径参数Eps的设定值会对聚类结果产生巨大影响。为了提高算法的聚类效果,提出了一种基于变参数的 DBSCAN 算法。该算法根据分布不均匀的数据密度,运用一维聚类产生对应的不同半径参数 Eps,然后使用不同的参数依次对数据进行聚类。实验结果表明,改进后的算法聚类质量更高。 关键词:数据挖掘;聚类;密度分布;dbscan;Eps 0 引言 数据挖掘又名数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据样本中寻找出隐藏的,包含有潜在应用价值的数据的过程。聚类(Clustering)是数据挖掘一个重要的研究方向,聚类挖掘就是将未知的数据对象分成多个类。人们通过聚类分析,识别密集的或稀疏的区域,从而发现全局的分布模式,以及数据属性之间有趣的相互关系。聚类挖掘是在事先不知道数据样本有多少类的情况下,通过处理使所有数据按照相似程度大小组成不同的类,同一类的元素相似性大,不同类的元素相似性小。聚类作为一种典型的数据挖掘方法,一直以来都是人工智能领域的一个研究热点,被广泛地应用于人脸图像识别、股票分析预测、搜索引擎、生物信息学等重要领域中[1]。聚类算法主要包括层次聚类[2]、划分聚类[3]、密度聚类[4]、网格聚类[5]等。DBSCA N[6]是由 EsterMartin 等人提出的一种经典的基于密度的聚类算法,能识别噪声并发现任意形状的簇,具有较强的聚类能力。但算法全局只有固定的参数 Eps,当数据样本密度分布不均匀的时候,聚类结果就不能反应数据样本的真实情况了[7,8]。虽然人们已经研究出很多事先确定 Eps 参数的方法[9],但效果并不如人意。鉴于 DBSCAN 算法存在的问题,文中提出了一种自适应的使用变参数的改进 DBSCAN 算法,以达到改善聚类效果的目的。 1 相关算法 1.1 DBSCAN 算法 dbscan 聚类算法相关的定义如下: 定义 1 Eps:表示数据点的半径。Eps 邻域:给定对象半径为 Eps 内的区域称为该对象的 Eps 邻域。 定义 2 Min Pts:表示核心点在 Eps 半径范围内含有多少个其他数据点的个数。 定义 3 核心点:如果给定点 Eps 领域内的样本点数大于等于 MinPts,则称该点为核心点。 定义 4 直接密度可达:对于样本集合 D,对于点 q和点 p,如果样本点 q 在 p 的 E p s 领域内,p 是核心点,则点 q 从点 p 直接密度可达。 定义 5 密度可达:如果对于给定的 Eps,Minpts 存在点链 X 1,X 2,X 3⋯X n,其中 X1=X,X n=Q,而且 Xi从Xi+1直接密度可达,那么点 X 从点 Q 密度可达。 定义 6 如果 p在半径 Eps 邻域内含有的对象小于 Min Pts,且它不在其它核心对象的 Eps 邻域范围内,称 p为噪声对象。 DBSCAN算法思想是通过检查一个对象的Eps邻域的密度是 否足够高,是否可以建立一个以该对象为核心对象的新簇,可以的话再合并密度可达簇,最终得到不同的类。它可以在带有“噪声”的空间数据库中发现任意形状的聚类[10,11]。DBSCAN 算法根据给定的密度阈值识别簇,而密度阈值是由 Eps 和 Min Pts 两个参数来决定的,算

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值