【翻译】A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise

最新推荐文章于 2022-03-27 14:28:38 发布

我一拳打弯你A柱

最新推荐文章于 2022-03-27 14:28:38 发布

阅读量1.1k

点赞数

分类专栏：论文文章标签：大数据机器学习

本文链接：https://blog.csdn.net/alian_w/article/details/115694850

版权

论文专栏收录该内容

8 篇文章 2 订阅

订阅专栏

【翻译】A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise

Abstract 摘要

聚类算法是空间数据库分类识别的一种有效方法。然而，在大型空间数据库中的应用对聚类算法提出了如下要求：以最小的领域知识要求来确定输入参数，发现任意形状的聚类，在大型数据库上具有良好的效率。众所周知的聚类算法无法解决这些需求的结合。本文提出了一种新的基于聚类密度的聚类算法DBSCAN，该算法旨在发现任意形状的簇。DBSCAN只需要一个输入参数，并支持用户为其确定合适的值。我们利用SEQUOIA 2000基准的合成数据和真实数据，对DBSCAN的有效性和效率进行了实验评价。实验结果表明：(1)DBSCAN算法在发现任意形状的聚类时比已知的CLARANS算法更有效，(2) DBSCAN在效率上比CLARANS高出100倍以上。

Keywords: Clustering Algorithms, Arbitrary Shape of Clus-ters, Efficiency on Large Spatial Databases, Handling Nlj4-275oise.

1 Introduction 介绍

大量的应用需要空间数据的管理，即与空间相关的数据。空间数据库系统(1994年Gueting)是用于管理空间数据的数据库系统。越来越多的数据是从卫星图像，x射线结晶仪或其他自动设备中获取的。因此，知识自动发现在空间数据库中显得越来越重要。

文献中已经定义了数据库知识发现(KDD)的若干任务(Matheus, chan&piatetsky - shapiro 1993)。本文所考虑的任务是分类，即将数据库对象分组为有意义的子类。例如，在地球观测数据库中，我们可能想要发现一些沿河的房屋类别。

聚类算法是一类很有吸引力的分类算法。然而，在大型空间数据库中的应用对聚类算法提出了以下要求：

(1) 最小限度地要求领域知识来确定输入参数，因为在处理大型数据库时，通常事先不知道合适的值。
(2) 发现任意形状的簇，因为空间数据库中簇的形状可能是球形、拉长、线性、拉长等。
(3) 对于大型数据库，即对象数量远远超过几千个的数据库，具有良好的效率。

众所周知的聚类算法无法解决这些需求的结合。本文提出了一种新的聚类算法DBSCAN。它只需要一个输入参数，并支持用户为其确定一个合适的值。它能发现任意形状的簇。最后，DBSCAN甚至对于大型空间数据库也是有效的。本文的其余部分组织如下。我们将在第2节讨论聚类算法，并根据上述要求对它们进行评估。在第3节中，我们提出了基于数据库密度概念的簇概念。第4节介绍了在空间数据库中发现此类集群的DBSCAN算法。在第5节中，我们使用合成数据和SEQUOIA 2000基准数据对DBSCAN的有效性和效率进行了实验评估。第六部分总结全文，并提出了未来研究的方向。

2 Clustering Algorithms 聚类算法

聚类算法有两种基本类型(Kaufman & Rousseeuw 1990)：划分算法和分层算法。划分算法将一个数据库中的n个对象划分成一组k个簇，k是这些算法的输入参数，这需要一些领域知识，但不幸的是，许多应用程序无法获得这些知识。划分算法通常从D的初始划分开始，然后使用迭代控制策略优化目标函数。每个簇由簇的重心(k-means算法)或簇的一个靠近其中心的对象(k-medoid算法)表示。因此，划分算法使用两步过程。首先，确定最小化目标函数的k个代表。然后，将每个对象分配到与所考虑对象“最近的”代表的集群中。第二步意味着一个分区等同于一个voronoi图，每个簇包含在一个voronoi单元中。因此，划分算法发现的簇是凸的，具有很强的限制性。

Ng & Han(1994)探讨了空间数据库中KDD的分区算法，介绍了一种改进的k-medoid算法CLARANS(基于随机搜索的大型应用聚类)。与以前的k-medoid算法相比，CLARANS算法更有效，效率更高。实验结果表明，CLARANS能够有效地运行在拥有数千个对象的数据库上。Ng &Han(1994)也讨论了在数据库中确定簇的“自然”数目的方法。他们提议从2到n地运行CLARANS算法，对每一个发现的聚类，计算轮廓系数(Kaufman & Rousseeuw 1990)，最后，选择轮廓系数最大的聚类作为“自然”聚类。不幸的是，这种方法的运行时间不能用于较大的n，因为它意味着调用O(n)个CLARANS。

CLARANS假设所有要集群的对象都可以同时驻留在主存中，而对于大型数据库来说，主存是不存在的。此外，CLARANS的运行时间在大型数据库上是禁止的。因此，Ester, Kriegel &Xu(1995)提出了几种聚焦技术，通过聚焦数据库相关部分的聚类过程来解决这两个问题。首先，焦点足够小，可以驻留在内存中；其次，CLARANS在焦点对象上的运行时间明显少于它在整个数据库上的运行时间。

分层算法对D进行分层分解。分层分解用树形图来表示，树形图迭代地将D分成更小的子集，直到每个子集只包含一个对象。在这样的层次结构中，树的每个节点代表一个D的簇。树形图在每一步可以从叶子到根部(凝聚方法)，也可以从根部到叶子(分裂方法)。与分区算法不同，分层算法不需要k作为输入。但是，必须定义一个终止条件，指示合并或分割过程何时终止。在凝聚方法中，终止条件的一个例子是所有Q的簇之间的临界距离Dmin。

到目前为止，分层聚类算法的主要问题是难以推导出合适的终止条件参数，即得到足够小的Dmin值，以分离所有“自然”集群，同时Dmin的值不能过小，从而不会将一个“自然”簇分成两个。最近，在信号处理领域提出了层次算法Ejcluster (Garcfa, Fdez-Valdivia, Cortijo & Molina 1994)，可以自动导出终止条件。它的核心思想是，如果你能通过“足够小的”一步从第一个点走到第二个点，那么这两个点就属于同一个集群。Ejcluster采用了分裂的方法。它不需要任何领域知识的输入。实验结果表明，该算法对发现非凸簇是非常有效的。但是Ejcluster的计算代价是O(n2)，因为对每一对点进行了距离计算。这对于中等规模的数据来说是可以接受的，但是对大型数据库上的应用来说，这是不允许的。

Jain(1988)探讨了一种基于密度的方法来识别k维点集中的簇。将数据集划分为若干不重叠的单元，并构造直方图。对于具有较高频率的细胞就是潜在的聚类中心，直方图中的“山谷”部分就是簇的边界。该方法具有识别任意形状聚类的能力。然而，存储和搜索多维直方图的空间和运行时需求是巨大的。即使空间和运行时需求得到了优化，这种方法的性能也至关重要地取决于细胞的大小。

6 结论 Conclusion

聚类算法是空间数据库分类识别的一种有效方法。然而，众所周知的算法在应用于大型空间数据库时存在严重的缺陷。本文提出了基于密度的聚类概念的聚类算法DBSCAN。它只需要一个输入参数，并支持用户为其确定一个合适的值。我们对SEQUOIA 2000基准的合成数据和真实数据进行了性能评估。实验结果表明，在发现任意形状的聚类时，DBSCAN算法比已知的CLARANS算法更有效。此外，实验表明，DBSCAN在效率方面至少比CLARANS高出100倍。

未来的研究将不得不考虑以下问题。首先，我们只考虑了点对象，空间数据库，然而，也可能包含扩展对象，如多边形。为了推广DBSCAN，我们必须给出多边形数据库中eps邻域密度的定义。其次，研究DBSCAN在高维特征空间中的应用。特别是，k-dist图在这类应用中的形状必须加以探索。

参考文献 References

Beckmann N., Kriegel H.-P., Schneider R, and Seeger B. 1990. The
R*-tree: An Efficient and Robust Access Method for Points and
Rectangles, Proc. ACM SIGMOD Int. Conf. on Management of
Data, Atlantic City, NJ, 1990, pp. 322-331.
Brinkhoff T., Kriegel H.-R, Schneider R., and Seeger B. 1994
Efficient Multi-Step Processing of Spatial Joins, Proc. ACM
SIGMOD Int. Conf. on Management of Data, Minneapolis, MN,
1994, pp. 197-208.
Ester M., Kriegel H.-P., and Xu X. 1995. A Database Interface for
Clustering in Large Spatial Databases, Proc. 1st Int. Conf. on
Knowledge Discovery and Data Mining, Montreal, Canada, 1995,
AAAI Press, 1995.
Garcfa J.A., Fdez-Valdivia J., Cortijo E J., and Molina R. 1994. A
Dynamic Approach for Clustering Data. Signal Processing, Vol. 44,
No. 2, 1994, pp. 18t-196.
Gueting R.H. 1994. An Introduction to Spatial Database Systems.
The VLDB Journal 3(4): 357°399.
Jain Anil K. 1988. Algorithms for Clustering Data. Prentice Hall.
Kaufman L., and Rousseeuw RJ. 1990. Finding Groups #~ Data: an
Introduction to Cluster Analysis. John Wiley & Sons.
Matheus C.J.; Chan P.K.; and Piatetsky-Shapiro G. 1993. Systems
for Knowledge Discovery in Databases, 1EEE Transactions on
Knowledge and Data Engineering 5(6): 903-913.
Ng R.T., and Han J. 1994. Efficient and Effective Clustering
Methods for Spatial Data Mining, Proc. 20th Int. Conf. on Very
Large Data Bases, 144-155. Santiago, Chile.
Stonebraker M., Frew J., Gardels K., and Meredith J.1993. The
SEQUOIA 2000 Storage Benchmark, Proc. ACM SIGMOD Int.
Conf. on Management of Data, Washington, DC, 1993, pp. 2-11.

我一拳打弯你A柱

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【翻译】A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise

【翻译】A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with NoiseAbstract 摘要聚类算法是空间数据库分类识别的一种有效方法。然而，在大型空间数据库中的应用对聚类算法提出了如下要求：以最小的领域知识要求来确定输入参数，发现任意形状的聚类，在大型数据库上具有良好的效率。众所周知的聚类算法无法解决这些需求的结合。本文提出了一种新的基于聚类密度的聚类算法DBSCAN，该算法旨在发现
复制链接

扫一扫

专栏目录