matlab最小生生成树的聚类算法,基于密度的最小生成树聚类算法研究

最新推荐文章于 2024-07-14 14:28:12 发布

weixin_32541333

最新推荐文章于 2024-07-14 14:28:12 发布

阅读量618

点赞数

文章标签： matlab最小生生成树的聚类算法

掣业业船妇坐船啦‘螗毽

鬻数据库与信息处理格

涤恭带芥带芥芾带苓赤

基于密度的最小生成树聚类算法研究

崔光照ｔ，２曹玲芝２张勋才２王延峰１１(华中科技大学控制科学与工程系，武汉４３００７４)２(郑州轻工业学院电气信息工程学院，郑州４５０００２)

Ｅ－ｍｉａｌ：ｗａｎｇｙｆ＠ｍａｉｌ．ｈｕｓｔ。ｅｄｕ．ｃｎ

摘要基于密度的方法是一种相当有效的聚类方法，能够发现任意形状的聚类，对噪声数据不敏感．但是聚类结果严重依赖于用户参数的合理选择。针对其存在的问题，将最，卜生成树理论与基于密度的方法相结合。提出了一种基于密度的最小生成树聚类算法。通过构造、分割最小生成树得到确定样本空间划分的最小生成子树；根据子树特性．产生局部密度参数；并对生成子树进行局部密度聚类。理论分析和应用结果表明。该算法不仅体现了基于密度聚类方法的优点．聚类结果不依赖于用户参数的选择，使数据聚类更合理，特别是对大型数据库非常有效；也体现了数据分区的思想，使其可以并行执行．进一步提高了信息处理的时空效率和性能。

关键词

聚类

最小生成树

密度数据挖掘

文章编号１００２—８３３１－(２００６)０５—０１５６—０３

文献标识码Ａ中图分类号ＴＰ３１ｌ

ＲｅｓｅａｒｃｈｏｆＤｅｎｓｉｔｙ—Ｂａｓｅｄ

ＣｕｉＧｕａｎｇｚｈａｏ！‘２

ＣａｏＬｉｎｇｚｈｉ２Ｓｃｉｅｎｃｅａｎｄ

ＭＳＴＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍ

ＺｈａｎｇＸｕｎｃａｉ２

Ｗａｎｇ

Ｙａｎｆｅｎ９１

ｏｆＳｃｉｅｎｃｅ

１(ＤｅｐａｒｔｍｅｎｔｏｆＣｏｎｔｒｏｌ

Ｅｎｇｉｎｅｅｒｉｎｇ，ＨｕａｚｈｏｎｇＵｎｉｖｅｒｓｉｔｙ

ａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｗｕｈａｎ４３００７４)

２(Ｃｏｌｌｅｇｅ

ｏｆＥｌｅｃｔｒｉｃａｌＩｎｆｏｒｍａｔｉｏｎ

Ｅｎｇｉｎｅｅｒｉｎｇ，ＺｈｅｎｇｚｈｏｕＩｎｓｔｉｔｕｔｅｏｆＬＪｉｇｈｔＩｎｄｕｓｔｒｙ，

Ｚｈｅｎｇｚｈｏｕ

Ａｂｓｔｒａｃｔ：Ｄｅｎｓｉｔｙ－ｂａｓｅｄｍｅｔｈｏｄｉｓａｒｂｉｔｒａｒｙｓｈａｐｅｄｉｆｆｉｃｕｌｔ

ｔｏ

ｏｎｅ

４５０００２)

ｅｆｆｉｃｉｅｎｔｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｓｔｈａｔ

ｓｈｏｕｌｄ

ｂｅ

ｄｅｔｅｒｍｉｎｅｄｓｏｌｖｅ

ｔｈｉｓ

ａｔ

ｃａｎ

ｏｆｔｈｅｅｆｆｅｃｔｉｖｅ

ａｎｄ

ｄｉｓｃｏｖｅｒ

ｃｌｕｓｔｅｒｓｗｉｔｈ

ｖｅｒｙａｎｄ

ｔｏ

ａｎｄｉｓｉｎｓｅｎｓｉｔｉｖｅｔｈｅｍ

ｔｏｎｏｉｓｅｄａｔａ．Ｂｕｔｗｉｔｈｏｕｔ

ｔｒｅｅ

ｓｏｍｅｐａｒａｍｅｔｅｒｓｐｒｉｏｒ

ｄｏｍａｉｎ

ｂｙ

ｈａｎｄ．Ｈｏｗｅｖｅｒ，ｉｔｉｓ

ａｐｐｌｉｃａｂｌｅ

ｄｅｔｅｒｍｉｎｅ

ｍａｎｕａｌｌｙａｎｙｋｎｏｗｌｅｄｇｅ．Ｔｏｐｒｏｂｌｅｍ，ａｎａｖｏｉｄｉｎｇ

ｅｆｆｉｃｉｅｎｔｄｅｎｓｉｔｙ－ｂａｓｅｄｍｉｎｉｍｕｍｓｐａｎｎｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｉｓｐｒｅｓｅｎｔｅｄ．Ｉｔａｉｍｓ

ａｎｙｐａｒａｍｅｔｅｒ

ｂｅ

ｄｅｔｅｒｍｉｎｅｄ

ｓｈｏｗｍａｋｅ

ｂｙ

ｈａｎｄ，ａｎｄ

ａｔｎｏｔ

ｔｈｅｓａｍｅｏｎｌｙ

ｔｉｍｅ，ｉｍｐｒｏｖｉｎｇ

ｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｃｌｕｓｔｅｒｉｎｇ．Ｔｈｅｏｒｙａｎａｌｙｓｉｓａｎｄｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ

ｒｅｑｕｉｒｅｓ

ｎｏ

ｔｈａｔｔｈｉｓ

ａｐｐｒｏａｃｈ

ｋｅｅｐｓｔｈｅｇｏｏｄｆｅａｔｕｒｅｓｏｆＤＢＳＣＡＮ，ｂｕｔａｌｓｏ

ｉｎｐｕｔｐａｒａｍｅｔｅｒｓ

ａｎｄ

ｃａｎ

ｐａｒａｌｌｅｌｅｄｐｒｏｃｅｓｓｉｎｇ．

Ｋｅｙｗｏｒｄｓ：ｃｌｕｓｔｅｒ，ｍｉｎｉｍｕｍｓｐａｎｎｉｎｇｔｒｅｅ，ｄｅｎｓｉｔｙ，ｄａｔａｍｉｎｉｎｇ

聚类是一个富有挑战性的研究领域，是模式分类与系统建模的基本方法之一。它是根据某种准则．将数据集划分为若干类的过程．并使同一类内的数据对象具有较高的相似度：而不同的类之间有较高的相异度。目前，聚类已广泛应用于数据挖掘、统计数据分析、模式识别、图像处理等领域。在数据挖掘领域．研究工作已经集中在为大型数据库的有效和实际的聚类分析寻找适当的方法。迄今为止．人们提出了许多用于大规模数据库的聚类算法。如基于层次的算法(ＣＨＡＭＥＬＥＯＮ．ＣＵＲＥ．ＢＩＲＣＨ)、基于平面分割的算法(Ｋ—ＭＥＡＮＳ，ＦＲＥＭ)、基于密度的算法(ＤＥＮＣＬＵＥ，ＯＰＴＩＣＳ，ＤＢＳＣＡＮ)、以及基于网格和模型的算法(ＳＴＩＮＧ．ＣＬＩＱＵＥ)等［”。这些算法的应用已取得良好的效果．但它们的缺点在于对数据的分布进行了一定的假设．处理大量、高维的数据集时不够有效：再者，绝大多数方法以对象

间的距离划分类．这只能发现球状形聚类。

基于密度的聚类是把具有足够高密度的区域划为类．可以得到任意形状的聚类ｆ２］。ＤＢＳＣＡＮ是基于密度聚类算法的典型代表。根据用户指定的全局参数进行聚类。但许多现实数据集的一个重要特性是其内在的聚类结构不能够通过全局的密度参数来描述。而且．真实的高维数据集合经常分布不均．全局密度参数不能刻画其内在的聚类结构．展示数据空间中不同区域的聚类需要不同的局部密度。再者．大多数聚类技术能发现的聚类个数常常依赖于用户参数的指定。而参数设置的细微不同可能导致差别很大的聚类结果．这对用户来说经常是相当困难的。ＯＰＴＩＣＳ算法解决了对参数的敏感性问题．但是占用了额外的存储空间【３Ｊ。这里提出了基于密度的最小生成树聚类算法(ＤＢＭＳＴＣＡ)。通过构造、分割最小生成树【４】，再进行基于密度的

基金项目：国家自然科学基金资助项目(编号：３０３７０３５６)

作者简介：崔光照(１９５７一)，男，博士，教授，硕士生导师，主要从事数字系统可靠性、智能信息处理的研究。

１５６

２００６．０５计算机工程与应用

万方数据