一、算法原理
根据密度进行聚类。
三类数据点:核心点,边界点,噪音点。
核心点:在半径Eps内含有超过Minpts个数的点。
边界点:在半径Eps内含有小于Minpts个数的点,但落在核心点的领域。
噪音点:不是以上两种点的点。
每个点都要判断一遍,标记为核心点,边界点和噪音点,噪音点要删除。
二、算法参数
eps:半径
min_sample:簇的样本数
metric:计算方式
eg:db=skc.DBSCAN(eps=0.01,min_samples=20)
eg:db=skc.DBSCAN(eps=0.01,min_samples=20)
三、算法应用代码解析
import numpy as np
import sklearn.cluster as skc
import matplotlib.pyplot as plt
from sklearn import metrics
mac2id=dict()
onlinetimes=[]
fr=open('TestData.txt',encoding='utf-8').readlines()#encoding='utf-8'?什么意思????
for line in fr:
mac = line.split(&#