机器学习——DBSCAN方法及应用（聚类）

最新推荐文章于 2024-05-11 20:57:59 发布

L_imbo

最新推荐文章于 2024-05-11 20:57:59 发布

阅读量2k

点赞数

文章标签：聚类算法 python 机器学习

本文链接：https://blog.csdn.net/qq_43662165/article/details/108131296

版权

介绍说明

DBSCAN算法是一种基于密度的聚类算法：
聚类的时候不需要预先指定聚类中心（簇）的个数
最终的簇的个数不确定

三类数据点：
核心点：在半径Eps内含有超过MinPts数目的点。
边界点：在半径Eps内点的数量小于MinPts，但落在核心点的领域内。
噪音点：既不是核心点也不是边界点。
在这里插入图片描述

算法流程

A.将所有点标记为核心点、边界点或噪声点。
B.删除噪声点。
C.为距离为Eps之内的所有核心点之间赋予一条边。
D.每组连通的核心点形成一个簇。
E.将每个边界点指派到一个与之关联的核心点的簇中（哪个核心点的半径之类）

实例：
13个样本点
在这里插入图片描述 ①取Eps=3，MinPts=3，依据DBSCAN对所有的点进行聚类（曼哈顿距离）。
②对每个点计算其邻域Eps=3内的点的集合。（其中超过MinPts=3的点为核心点，剩余点如果在核心点邻域内则为边界点，反之则为噪声点）
③将距离不超过Eps=3的点相互连接，构成一个簇，核心点邻域内的点也会被加入到这个簇中。
在这里插入图片描述

应用实例

大学校园网的日志数据：用户ID、设备的MAC地址、IP地址、开始上网时间、停止上网时间、上网时长、校园网套餐等，利用已有数据，分析学生上网的模式。
其中，单条数据格式实例为：
在这里插入图片描述具体的数据（可自行下载）：
链接：https://pan.baidu.com/s/1ZTZwNvWhxRsNKhBlQRJQog
提取码：dunk

实验过程：
在这里插入图片描述

代码部分

# 1.建立工程，导入sklearn相关包
import numpy as np
import sklearn.cluster as skc
from sklearn.cluster import DBSCAN  # eps:两个样本被看作邻居节点的最大距离 min_samples:簇的样本数 metric:距离计算方式
from sklearn import metrics
import matplotlib.pyplot as plt

# 2.读入数据并进行处理
mac2id = dict()
onlinetimes = []
f = open('TestData.txt'

最低0.47元/天解锁文章

L_imbo

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
机器学习——DBSCAN方法及应用（聚类）

介绍说明DBSCAN算法是一种基于密度的聚类算法：聚类的时候不需要预先指定聚类中心（簇）的个数最终的簇的个数不确定三类数据点：核心点：在半径Eps内含有超过MinPts数目的点。边界点：在半径Eps内点的数量小于MinPts，但落在核心点的领域内。噪音点：既不是核心点也不是边界点。算法流程A.将所有点标记为核心点、边界点或噪声点。B.删除噪声点。C.为距离为Eps之内的所有核心点之间赋予一条边。D.每组连通的核心点形成一个簇。E.将每个边界点指派到一个与之关联的核心点的簇中（哪个
复制链接

扫一扫