关于聚类算法的前面两篇文章,已经介绍过了常用的原型聚类算法k-measn算法和层次聚类中的凝聚算法,这篇文章介绍一些密度聚类算法DBSCAN。k-means算法需要事先指定簇的个数,而凝聚不需要指定簇的个数,这两个算法会将所有的样本的划分到簇中,无法区分出噪声,k-means算法的簇空间是球状的,它们都无法很好的区分出高密度的区域。这篇文章主要介绍聚类算法中的DBSCAN算法,它划分出来的簇空间可以是任意形状的。通过这篇文章你能够了解到:
1、什么是密度聚类
2、DBSCAN算法
3、使用DBSCAN来划分高密度区域
一、密度聚类
密度聚类也称"基于密度的聚类"(density-based clustering),算法是假设聚类结果能够通过样本分布的紧密程度来进行簇的划分的。密度聚类算法是从样本密度的角度来考虑样本之间的可连接性,并基于可连接性不断扩展聚类簇来获得最终的聚类结果。
二、DBSCAN算法
DBSCAN是一种常用的密度聚类算法,密度被定义为指定半径ε范围内样本点的数量。在DBSCAN中,