1、DBSCAN概念
基于密度的带噪声的空间聚类应用算法,它是将簇定义为密度相连的点的大集合,能够把足够高密度的区域划分为簇,并且可在噪声的空间数据集中发现任意形状的聚类。
2、密度聚类和距离聚类
密度聚类:只要临近区域的密度、对象、或者数据点的数目超过耨个阈值,就继续聚类,可以根据与周伟特点进行聚类
kmeans和分层聚类都是基于距离进行聚类,只能发现球状的簇,五发现其他形式的簇
3、其他概念
01密度:空间中任意一点的密度是以该点为圆形,以Eps为半径的圆区域内包含的点数目。
02 领域: 空间中任意一点的领域是以该点为圆心、以Eps为半径的圆区域内包含的点数目。
03 核心点:空间某一点的密度,如果大于某一给定阈值MInPts,则称为边界点。
04 噪声点:数据集中不属于核心点,也不属于边界点的点,也就是密度值为1的点
4、聚类方法
model=sklearn.cluster.DBSCAN(eps,min_samples)
eps 领域的大小,使用圆的半径表示
min_samples 点的个数的阈值
model.fit_predict(data)
data 数据
训练模型并且进行预测的方法
5、案例
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('D:\\DATA\\pycase\\number2\\7.2\\data.csv')
plt.plot(