【翻译】A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise

【翻译】A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise

Abstract 摘要

​ 聚类算法是空间数据库分类识别的一种有效方法。然而,在大型空间数据库中的应用对聚类算法提出了如下要求:以最小的领域知识要求来确定输入参数,发现任意形状的聚类,在大型数据库上具有良好的效率。众所周知的聚类算法无法解决这些需求的结合。本文提出了一种新的基于聚类密度的聚类算法DBSCAN,该算法旨在发现任意形状的簇。DBSCAN只需要一个输入参数,并支持用户为其确定合适的值。我们利用SEQUOIA 2000基准的合成数据和真实数据,对DBSCAN的有效性和效率进行了实验评价。实验结果表明:(1)DBSCAN算法在发现任意形状的聚类时比已知的CLARANS算法更有效,(2) DBSCAN在效率上比CLARANS高出100倍以上。

Keywords: Clustering Algorithms, Arbitrary Shape of Clus-ters, Efficiency on Large Spatial Databases, Handling Nlj4-275oise.

1 Introduction 介绍

​ 大量的应用需要空间数据的管理,即与空间相关的数据。空间数据库系统(1994年Gueting)是用于管理空间数据的数据库系统。越来越多的数据是从卫星图像,x射线结晶仪或其他自动设备中获取的。因此,知识自动发现在空间数据库中显得越来越重要。

​ 文献中已经定义了数据库知识发现(KDD)的若干任务(Matheus, chan&piatetsky - shapiro 1993)。本文所考虑的任务是分类,即将数据库对象分组为有意义的子类。例如,在地球观测数据库中,我们可能想要发现一些沿河的房屋类别。

​ 聚类算法是一类很有吸引力的分类算法。然而,在大型空间数据库中的应用对聚类算法提出了以下要求:

  • (1) 最小限度地要求领域知识来确定输入参数,因为在处理大型数据库时,通常事先不知道合适的值。
  • (2) 发现任意形状的簇,因为空间数据库中簇的形状可能是球形、拉长、线性、拉长等。
  • (3) 对于大型数据库,即对象数量远远超过几千个的数据库,具有良好的效率。

​ 众所周知的聚类算法无法解决这些需求的结合。本文提出了一种新的聚类算法DBSCAN。它只需要一个输入参数,并支持用户为其确定一个合适的值。它能发现任意形状的簇。最后,DBSCAN甚至对于大型空间数据库也是有效的。本文的其余部分组织如下。我们将在第2节讨论聚类算法,并根据上述要求对它们进行评估。在第3节中,我们提出了基于数据库密度概念的簇概念。第4节介绍了在空间数据库中发现此类集群的DBSCAN算法。在第5节中,我们使用合成数据和SEQUOIA 2000基准数据对DBSCAN的有效性和效率进行了实验评估。第六部分总结全文,并提出了未来研究的方向。

2 Clustering Algorithms 聚类算法

​ 聚类算法有两种基本类型(Kaufman & Rousseeuw 1990):划分算法和分层算法。划分算法将一个数据库中的n个对象划分成一组k个簇,k是这些算法的输入参数,这需要一些领域知识,但不幸的是,许多应用程序无法获得这些知识。划分算法通常从D的初始划分开始,然后使用迭代控制策略优化目标函数。每个簇由簇的重心(k-means算法)或簇的一个靠近其中心的对象(k-medoid算法)表示。因此,划分算法使用两步过程。首先,确定最小化目标函数的k个代表。然后,将每个对象分配到与所考虑对象“最近的”代表的集群中。第二步意味着一个分区等同于一个voronoi图,每个簇包含在一个voronoi单元中。因此,划分算法发现的簇是凸的,具有很强的限制性。

​ Ng & Han(1994)探讨了空间数据库中KDD的分区算法,介绍了一种改进的k-medoid算法CLARANS(基于随机搜索的大型应用聚类)。与以前的k-medoid算法相比,CLARANS算法更有效,效率更高。实验结果表明,CLARANS能够有效地运行在拥有数千个对象的数据库上。Ng &Han(1994)也讨论了在数据库中确定簇的“自然”数目的方法。他们提议从2到n地运行CLARANS算法,对每一个发现的聚类,计算轮廓系数(Kaufman & Rousseeuw 1990),最后,选择轮廓系数最大的聚类作为“自然”聚类。不幸的是,这种方法的运行时间不能用于较大的n,因为它意味着调用O(n)个CLARANS。

​ CLARANS假设所有要集群的对象都可以同时驻留在主存中,而对于大型数据库来说,主存是不存在的。此外,CLARANS的运行时间在大型数据库上是禁止的。因此,Ester, Kriegel &Xu(1995)提出了几种聚焦技术,通过聚焦数据库相关部分的聚类过程来解决这两个问题。首先,焦点足够小,可以驻留在内存中;其次,CLARANS在焦点对象上的运行时间明显少于它在整个数据库上的运行时间。

​ 分层算法对D进行分层分解。分层分解用树形图来表示,树形图迭代地将D分成更小的子集,直到每个子集只包含一个对象。在这样的层次结构中,树的每个节点代表一个D的簇。树形图在每一步可以从叶子到根部(凝聚方法),也可以从根部到叶子(分裂方法)。与分区算法不同,分层算法不需要k作为输入。但是,必须定义一个终止条件,指示合并或分割过程何时终止。在凝聚方法中,终止条件的一个例子是所有Q的簇之间的临界距离Dmin。

​ 到目前为止,分层聚类算法的主要问题是难以推导出合适的终止条件参数,即得到足够小的Dmin值,以分离所有“自然”集群,同时Dmin的值不能过小,从而不会将一个“自然”簇分成两个。最近,在信号处理领域提出了层次算法Ejcluster (Garcfa, Fdez-Valdivia, Cortijo & Molina 1994),可以自动导出终止条件。它的核心思想是,如果你能通过“足够小的”一步从第一个点走到第二个点,那么这两个点就属于同一个集群。Ejcluster采用了分裂的方法。它不需要任何领域知识的输入。实验结果表明,该算法对发现非凸簇是非常有效的。但是Ejcluster的计算代价是O(n2),因为对每一对点进行了距离计算。这对于中等规模的数据来说是可以接受的,但是对大型数据库上的应用来说,这是不允许的。

​ Jain(1988)探讨了一种基于密度的方法来识别k维点集中的簇。将数据集划分为若干不重叠的单元,并构造直方图。对于具有较高频率的细胞就是潜在的聚类中心,直方图中的“山谷”部分就是簇的边界。该方法具有识别任意形状聚类的能力。然而,存储和搜索多维直方图的空间和运行时需求是巨大的。即使空间和运行时需求得到了优化,这种方法的性能也至关重要地取决于细胞的大小。

6 结论 Conclusion

​ 聚类算法是空间数据库分类识别的一种有效方法。然而,众所周知的算法在应用于大型空间数据库时存在严重的缺陷。本文提出了基于密度的聚类概念的聚类算法DBSCAN。它只需要一个输入参数,并支持用户为其确定一个合适的值。我们对SEQUOIA 2000基准的合成数据和真实数据进行了性能评估。实验结果表明,在发现任意形状的聚类时,DBSCAN算法比已知的CLARANS算法更有效。此外,实验表明,DBSCAN在效率方面至少比CLARANS高出100倍。

​ 未来的研究将不得不考虑以下问题。首先,我们只考虑了点对象,空间数据库,然而,也可能包含扩展对象,如多边形。为了推广DBSCAN,我们必须给出多边形数据库中eps邻域密度的定义。其次,研究DBSCAN在高维特征空间中的应用。特别是,k-dist图在这类应用中的形状必须加以探索。

参考文献 References

Beckmann N., Kriegel H.-P., Schneider R, and Seeger B. 1990. The
R*-tree: An Efficient and Robust Access Method for Points and
Rectangles, Proc. ACM SIGMOD Int. Conf. on Management of
Data, Atlantic City, NJ, 1990, pp. 322-331.
Brinkhoff T., Kriegel H.-R, Schneider R., and Seeger B. 1994
Efficient Multi-Step Processing of Spatial Joins, Proc. ACM
SIGMOD Int. Conf. on Management of Data, Minneapolis, MN,
1994, pp. 197-208.
Ester M., Kriegel H.-P., and Xu X. 1995. A Database Interface for
Clustering in Large Spatial Databases, Proc. 1st Int. Conf. on
Knowledge Discovery and Data Mining, Montreal, Canada, 1995,
AAAI Press, 1995.
Garcfa J.A., Fdez-Valdivia J., Cortijo E J., and Molina R. 1994. A
Dynamic Approach for Clustering Data. Signal Processing, Vol. 44,
No. 2, 1994, pp. 18t-196.
Gueting R.H. 1994. An Introduction to Spatial Database Systems.
The VLDB Journal 3(4): 357°399.
Jain Anil K. 1988. Algorithms for Clustering Data. Prentice Hall.
Kaufman L., and Rousseeuw RJ. 1990. Finding Groups #~ Data: an
Introduction to Cluster Analysis. John Wiley & Sons.
Matheus C.J.; Chan P.K.; and Piatetsky-Shapiro G. 1993. Systems
for Knowledge Discovery in Databases, 1EEE Transactions on
Knowledge and Data Engineering 5(6): 903-913.
Ng R.T., and Han J. 1994. Efficient and Effective Clustering
Methods for Spatial Data Mining, Proc. 20th Int. Conf. on Very
Large Data Bases, 144-155. Santiago, Chile.
Stonebraker M., Frew J., Gardels K., and Meredith J.1993. The
SEQUOIA 2000 Storage Benchmark, Proc. ACM SIGMOD Int.
Conf. on Management of Data, Washington, DC, 1993, pp. 2-11.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值