一种新的矩形聚类算法

 

一种新的矩形聚类算法

 

作者:陈玉进 李泉

 

 

聚类,是数据挖掘一种重要的手段,通常所见到的聚类,大都是多维向量点、基于距离的聚类算法,比如k-means、密度聚类等。本文所讨论的是扩展对象的聚类,与多维向量点聚类有着明显的差别,扩展对象是非点的对象,延用多维向量点之间的距离是无法准确表达扩展对象之间的聚合程度,因此,需要寻找一种新的衡量指标。

 

本文讨论扩展对象中最简单的形式——平行于坐标轴的二维矩形,不仅因为矩形具有代表性、可以简化问题讨论的复杂性、同理推广到高维扩展对象,而且其本身就有着广泛的应用,在空间数据挖掘、R树索引节点分裂算法等方面,发挥着重要的作用。

 

问题的引子——R树索引中,当一个节点关联的图元集合,数据量超过设定阈值(阈值通常是根据磁盘块的大小设定的)的时候,将进行节点分裂,分裂成多个节点,使得图元MBR(最小外包矩形)聚合度高的图元归为一个集合,成为一个分裂节点,而集合与集合之间离散度高,分裂为不同的节点。这样就提出一个问题:怎样将平面的一堆横竖矩形,按聚合的程度,自适应地分裂到不同的集合中,使得集合内部聚合度高,集合之间离散度高?

平行于坐标轴的矩形聚类具有哪些特点?如图

 d71

 

特点如下:1,聚合形成的外包矩形依然是平行于坐标轴;2,集合内的矩形聚合高、不同集合之间聚合度低(或者叫离散度高)。根据以上特点,需要找出集合与集合之间平行于坐标轴的隔离带(线)。隔离带(线)是一种隔离程度相对比较大的带状区域或者线,隔离需要用一种指标来衡量,以量化隔离的程度,从中找出隔离程度相对比较大的或者线。下面给出隔离度相关的一些定义。

图元矩形隔离度——两个集合之间,无重叠时,隔离的带状面积,或者有重叠时,超出部分的图元矩形面积之和,且重叠部分,面积为负值。

外包矩形隔离度——两个集合之间,无重叠时,隔离的带状面积,或者有重叠时,超出部分形成的整个外包矩形之间的重叠面积,且面积为负值。

 

 

有重叠的隔离度,为面积的负值

下面介绍一种利用格网扫描、隔离度、实现矩形聚类的算法。算法步骤如下:

1)        建立网格索引。每个网格记录了与此相交的矩形集合。

2)        扫描网格线、划分集合。分别从横、纵两个方向,扫描网格线。假设扫描到一根网格线,以网格线为基准,对矩形划分集合,网格线两侧分别各形成一个集合,需要注意的是,与网格线有相交的矩形,按其在两侧所占的面积多少为依据,确定其归属于哪个集合,原则是在哪一侧占的面积多,就归哪一侧。

3)        分别求此两个集合的 “外包矩形隔离度”,作为此扫描线的隔离程度。方法是分别两个集合在扫描线附近,确定集合最边界的位置,即可很快算出隔离的面积。

4)        从横、纵向两个方向,找到拥有最大“外包矩形隔离度”的隔离带或者线,对集合进行划分,然后对划分后的子集合递归使用2——4的步骤,直到满足聚类划分的个数或者达到“外包矩形隔离度”最小阈值,算法终止。

 

 

通过以上聚类划分集合的方式,实现了矩形的聚类,用于R树节点的分裂,构建起R树空间索引。至于R树的查找,通过查询窗口的矩形与R树节点所代表的矩形进行求交比较即可实现查找。

 

矩形插入操作,通过R树查询,确定由于新加进来的矩形所带来的影响,判断是否需要重新扫描网格,以重新聚类划分。确定“外包矩形隔离度”下限阈值(可以采用对应节点划分的次最大“外包矩形隔离度”作为阈值),可按最小扩张的MBR范围,同时大于阈值要求的情况下,来推迟重新扫描网格,重新聚类划分所带来的性能开销,实现矩形的插入操作。

 

本文提出的基于网格扫描的、聚类划分矩形的算法,一定程度上减少了聚类效果与矩形选取次序的相关性,使得聚类的效果更客观合理,同时算法简单,时间复杂度主要与网格划分的密度有关,与需要聚类的矩形个数关系不大,只在建立网格索引的时候,需要一次线性的运算。能达到这种效果的原因,主要在于,成功地运用了这种矩形聚类算法的特点——平行于坐标轴。同时此算法思路,可以推广到多维平行坐标轴的类矩形的扩展对象的聚类,在多维正交索引,数据挖掘中有着广泛的应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值