首先确保你在动手写代码之前已经了解什么是聚类分析。
DBSCAN算法----一种基于密度的聚类算法。DBSCAN算法是如何发现簇的呢?
1.首先,给定数据集D中的所有对象都被标记为unvisited
2.随机的选择一个未访问的对象p,标记为visited
3.检查p的e-邻域是否至少包含MinPts个点
4.如果不是则标记为噪声点,否则为p创建一个簇C,并且把p的e-邻域中的所有对象都放到候选集合N中
5.DBSCAN迭代的把N中不属于其它簇的对象添加到C中。在此过程中,对于N中标记为unvisited的对象p‘,DBSCAN把它标记为visited,并检查它的e-邻域对象。
6.如果p’的e-邻域至少有MinPts个对象,则p‘的e-邻域中的对象全部添加到N中
7.DBSCAN继续添加对象到C中,知道C不能再被扩充位置,至此N就空了。此时簇C被生成,于是被输出
源码(Python)
import random
import math
import copy
def DBSCAN(data, e, MinPts):
visited = [] # 已访问的成员
C = [] # 一个新的簇C
cluster = []
unvisited = copy.deepcopy(data) # 对所有对象标记为unvisited
while unvisited != []: # 如果还有未被探索的点则继续循环
mark = random.randint(0, len(unvisited)-1)
p = unvisited[mark] # 在