dbscan聚类python_5.无监督学习-DBSCAN聚类算法及应用

最新推荐文章于 2024-04-11 14:08:08 发布

weixin_39846364

最新推荐文章于 2024-04-11 14:08:08 发布

阅读量266

点赞数

文章标签： dbscan聚类python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39846364/article/details/111423601

版权

本文介绍了DBSCAN密度聚类算法，包括其基本原理、算法流程和应用实例。在实例中，通过对大学生校园网使用情况进行分析，展示了如何使用sklearn库中的DBSCAN进行聚类，并对上网时间和时长进行了聚类分析，以揭示学生上网模式。

摘要由CSDN通过智能技术生成

DBSCAN方法及应用

1.DBSCAN密度聚类简介

DBSCAN 算法是一种基于密度的聚类算法：

1.聚类的时候不需要预先指定簇的个数

2.最终的簇的个数不确定

DBSCAN算法将数据点分为三类：

1.核心点：在半径Eps内含有超过MinPts数目的点。

2.边界点：在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内的点。

3.噪音点：既不是核心点也不是边界点的点。

如下图所示：图中黄色的点为边界点，因为在半径Eps内，它领域内的点不超过MinPts个，我们这里设置的MinPts为5；而中间白色的点之所以为核心点，是因为它邻域内的点是超过MinPts(5)个点的，它邻域内的点就是那些黄色的点！

2.DBSCAN算法的流程

1.将所有点标记为核心点、边界点或噪声点；

2.删除噪声点；

3.为距离在Eps之内的所有核心点之间赋予一条边；

4.每组连通的核心点形成一个簇；

5.将每个边界点指派到一个与之关联的核心点的簇中(哪一个核心点的半径范围之内)。

3.应用实例

数据介绍

现有大学校园网的日志数据，290条大学生的校园网使用情况数据，数据包括用户ID,设备的MAC地址，IP地址，开始上网时间，停止上网时间，上网时长，校园网套餐等。利用已有数据，分析学生上网的模式。

实验目的

通过DBSCAN聚类，分析学生上网时间和上网时长的模式。

技术路线

采用：sklearn.cluster.DBSCAN 模块

下图为一个数据的实例展示：

通过上述上网时间的聚类分析和上网时长的聚类分析得出我们想要的同学们上网的时间和时长的分布结果！

1.建立工程，导入sklearn相关包

import numpy as np

from sklearn.cluster import DBSCAN

注意：DBSCAN主要参数：

1.eps:两个样本被看作邻居节点的最大距离

2.min_samples:簇的样本数

3.metric:距离计算方式

例：sklearn.cluster.DBSCAN(eps=0.5,min_samples=5,metric='euclidean') #euclidean表明我们要采用欧氏距离计算样本点的距离！

3-1.上网时间聚类，创建DBSCAN算法实例，并进行训练，获得标签：

4.输出标签，查看结果

为了更好的展示结果，我们可以把它画成直方图的形式，便于我们分析；如下我们使用 matplotlib库中的hist函数来进行直方图的展示：

5.画直方图，分析实验结果：

6.数据分布 vs 聚类

这里就是机器学习的一个小技巧了，左边的数据分布不适用于聚类分析的，如果我们想对这类数据进行聚类分析，需要对这些数据进行一些数学变换，通常我们采用取对数的变换方法，将这种数据变换之后，变换后的数据就比较适合用于聚类分析了；

3-2.上网时长聚类，创建DBSCAN算法实例，并进行训练，获得标签：

4-2.输出标签，查看结果

我们也可以看到：时长的聚类效果是不如时间的聚类效果明显的！

weixin_39846364

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。