掣业业船妇坐船啦‘螗毽
鬻 数据库与信息处理 格
涤恭带芥带芥芾带苓赤
基于密度的最小生成树聚类算法研究
崔光照t,2曹玲芝2张勋才2王延峰11(华中科技大学控制科学与工程系,武汉430074)2(郑州轻工业学院电气信息工程学院,郑州450002)
E-mial:wangyf@mail.hust。edu.cn
摘要基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感.但是聚类结果严重依赖于用户参数的合理选择。针对其存在的问题,将最,卜生成树理论与基于密度的方法相结合。提出了一种基于密度的最小生成树聚类算法。通过构造、分割最小生成树得到确定样本空间划分的最小生成子树;根据子树特性.产生局部密度参数;并对生成子树进行局部密度聚类。理论分析和应用结果表明。该算法不仅体现了基于密度聚类方法的优点.聚类结果不依赖于用户参数的选择,使数据聚类更合理,特别是对大型数据库非常有效;也体现了数据分区的思想,使其可以并行执行.进一步提高了信息处理的时空效率和性能。
关键词
聚类
最小生成树
密度数据挖掘
文章编号1002—8331-(2006)05—0156—03
文献标识码A中图分类号TP31l
ResearchofDensity—Based
CuiGuangzhao!‘2
CaoLingzhi2Scienceand
MSTClusteringAlgorithm
ZhangXuncai2
Wang
Yanfen91
ofScience
1(DepartmentofControl
Engineering,HuazhongUniversity
andTechnology,Wuhan430074)
2(College
ofElectricalInformation
Engineering,ZhengzhouInstituteofLJightIndustry,
Zhengzhou
Abstract:Density-basedmethodisarbitraryshapedifficult
to
one
450002)
efficientclusteringmethodsthat
should
be
determinedsolve
this
at
can
oftheeffective
and
discover
clusterswith
veryand
to
andisinsensitivethem
tonoisedata.Butwithout
tree
someparametersprior
domain
by
hand.However,itis
applicable
determine
manuallyanyknowledge.Toproblem,anavoiding
efficientdensity-basedminimumspanningclusteringalgorithmispresented.Itaims
anyparameter
be
determined
showmake
by
hand,and
atnot
thesameonly
time,improving
theefficiencyofclustering.Theoryanalysisandexperimentalresults
requires
no
thatthis
approach
keepsthegoodfeaturesofDBSCAN,butalso
inputparameters
and
can
paralleledprocessing.
Keywords:cluster,minimumspanningtree,density,datamining
聚类是一个富有挑战性的研究领域,是模式分类与系统建模的基本方法之一。它是根据某种准则.将数据集划分为若干类的过程.并使同一类内的数据对象具有较高的相似度:而不同的类之间有较高的相异度。目前,聚类已广泛应用于数据挖掘、统计数据分析、模式识别、图像处理等领域。在数据挖掘领域.研究工作已经集中在为大型数据库的有效和实际的聚类分析寻找适当的方法。迄今为止.人们提出了许多用于大规模数据库的聚类算法。如基于层次的算法(CHAMELEON.CURE.BIRCH)、基于平面分割的算法(K—MEANS,FREM)、基于密度的算法(DENCLUE,OPTICS,DBSCAN)、以及基于网格和模型的算法(STING.CLIQUE)等[”。这些算法的应用已取得良好的效果.但它们的缺点在于对数据的分布进行了一定的假设.处理大量、高维的数据集时不够有效:再者,绝大多数方法以对象
间的距离划分类.这只能发现球状形聚类。
基于密度的聚类是把具有足够高密度的区域划为类.可以得到任意形状的聚类f2]。DBSCAN是基于密度聚类算法的典型代表。根据用户指定的全局参数进行聚类。但许多现实数据集的一个重要特性是其内在的聚类结构不能够通过全局的密度参数来描述。而且.真实的高维数据集合经常分布不均.全局密度参数不能刻画其内在的聚类结构.展示数据空间中不同区域的聚类需要不同的局部密度。再者.大多数聚类技术能发现的聚类个数常常依赖于用户参数的指定。而参数设置的细微不同可能导致差别很大的聚类结果.这对用户来说经常是相当困难的。OPTICS算法解决了对参数的敏感性问题.但是占用了额外的存储空间【3J。这里提出了基于密度的最小生成树聚类算法(DBMSTCA)。通过构造、分割最小生成树【4】,再进行基于密度的
基金项目:国家自然科学基金资助项目(编号:30370356)
作者简介:崔光照(1957一),男,博士,教授,硕士生导师,主要从事数字系统可靠性、智能信息处理的研究。
156
2006.05计算机工程与应用
万方数据