matlab最小生生成树的聚类算法,基于密度的最小生成树聚类算法研究

掣业业船妇坐船啦‘螗毽

鬻 数据库与信息处理 格

涤恭带芥带芥芾带苓赤

基于密度的最小生成树聚类算法研究

崔光照t,2曹玲芝2张勋才2王延峰11(华中科技大学控制科学与工程系,武汉430074)2(郑州轻工业学院电气信息工程学院,郑州450002)

E-mial:wangyf@mail.hust。edu.cn

摘要基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感.但是聚类结果严重依赖于用户参数的合理选择。针对其存在的问题,将最,卜生成树理论与基于密度的方法相结合。提出了一种基于密度的最小生成树聚类算法。通过构造、分割最小生成树得到确定样本空间划分的最小生成子树;根据子树特性.产生局部密度参数;并对生成子树进行局部密度聚类。理论分析和应用结果表明。该算法不仅体现了基于密度聚类方法的优点.聚类结果不依赖于用户参数的选择,使数据聚类更合理,特别是对大型数据库非常有效;也体现了数据分区的思想,使其可以并行执行.进一步提高了信息处理的时空效率和性能。

关键词

聚类

最小生成树

密度数据挖掘

文章编号1002—8331-(2006)05—0156—03

文献标识码A中图分类号TP31l

ResearchofDensity—Based

CuiGuangzhao!‘2

CaoLingzhi2Scienceand

MSTClusteringAlgorithm

ZhangXuncai2

Wang

Yanfen91

ofScience

1(DepartmentofControl

Engineering,HuazhongUniversity

andTechnology,Wuhan430074)

2(College

ofElectricalInformation

Engineering,ZhengzhouInstituteofLJightIndustry,

Zhengzhou

Abstract:Density-basedmethodisarbitraryshapedifficult

to

one

450002)

efficientclusteringmethodsthat

should

be

determinedsolve

this

at

can

oftheeffective

and

discover

clusterswith

veryand

to

andisinsensitivethem

tonoisedata.Butwithout

tree

someparametersprior

domain

by

hand.However,itis

applicable

determine

manuallyanyknowledge.Toproblem,anavoiding

efficientdensity-basedminimumspanningclusteringalgorithmispresented.Itaims

anyparameter

be

determined

showmake

by

hand,and

atnot

thesameonly

time,improving

theefficiencyofclustering.Theoryanalysisandexperimentalresults

requires

no

thatthis

approach

keepsthegoodfeaturesofDBSCAN,butalso

inputparameters

and

can

paralleledprocessing.

Keywords:cluster,minimumspanningtree,density,datamining

聚类是一个富有挑战性的研究领域,是模式分类与系统建模的基本方法之一。它是根据某种准则.将数据集划分为若干类的过程.并使同一类内的数据对象具有较高的相似度:而不同的类之间有较高的相异度。目前,聚类已广泛应用于数据挖掘、统计数据分析、模式识别、图像处理等领域。在数据挖掘领域.研究工作已经集中在为大型数据库的有效和实际的聚类分析寻找适当的方法。迄今为止.人们提出了许多用于大规模数据库的聚类算法。如基于层次的算法(CHAMELEON.CURE.BIRCH)、基于平面分割的算法(K—MEANS,FREM)、基于密度的算法(DENCLUE,OPTICS,DBSCAN)、以及基于网格和模型的算法(STING.CLIQUE)等[”。这些算法的应用已取得良好的效果.但它们的缺点在于对数据的分布进行了一定的假设.处理大量、高维的数据集时不够有效:再者,绝大多数方法以对象

间的距离划分类.这只能发现球状形聚类。

基于密度的聚类是把具有足够高密度的区域划为类.可以得到任意形状的聚类f2]。DBSCAN是基于密度聚类算法的典型代表。根据用户指定的全局参数进行聚类。但许多现实数据集的一个重要特性是其内在的聚类结构不能够通过全局的密度参数来描述。而且.真实的高维数据集合经常分布不均.全局密度参数不能刻画其内在的聚类结构.展示数据空间中不同区域的聚类需要不同的局部密度。再者.大多数聚类技术能发现的聚类个数常常依赖于用户参数的指定。而参数设置的细微不同可能导致差别很大的聚类结果.这对用户来说经常是相当困难的。OPTICS算法解决了对参数的敏感性问题.但是占用了额外的存储空间【3J。这里提出了基于密度的最小生成树聚类算法(DBMSTCA)。通过构造、分割最小生成树【4】,再进行基于密度的

基金项目:国家自然科学基金资助项目(编号:30370356)

作者简介:崔光照(1957一),男,博士,教授,硕士生导师,主要从事数字系统可靠性、智能信息处理的研究。

156

2006.05计算机工程与应用

万方数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值