【笔记】【机器学习基础】DBSCAN

最新推荐文章于 2024-04-28 22:33:42 发布

'VeNus

最新推荐文章于 2024-04-28 22:33:42 发布

阅读量1.5k

点赞数 2

分类专栏：读书笔记文章标签： python

本文链接：https://blog.csdn.net/qq_47809408/article/details/125121854

版权

读书笔记专栏收录该内容

82 篇文章 5 订阅

订阅专栏

三、DBSCAN

优点：它不需要用户先验地设置簇的个数，可以划分具有复杂形状的簇，还可以找出不属于任何簇的点。

原理：识别特征空间的“拥挤”区域中的点，在这些区域中许多数据点靠近在一起。这些区域被称为特征空间中的密集区域。
思想：簇形成数据的密集区域，并由相对较空的区域分隔开。

核心样本：在密集区域内的点被称为核心样本（或核心点）。DBSCAN有两个参数：min_samples和eps。如果在距一个给定数据点eps的距离内至少有min_samples个数据点，那么这个数据点就是核心样本，小于则是噪声。

一共有三种类型的点：核心点，与核心点的距离在eps之内的点（叫做边界点）和噪声。

（1）应用于数据集（模拟数据make_blobs）

from sklearn.cluster import DBSCAN
X, y = make_blobs(random_state=0, n_samples=12)

dbscan = DBSCAN()
clusters = dbscan.fit_predict(X)
print("Cluster memberships:\n{}".format(clusters))

Cluster memberships:
[-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1]

数据点都默认被分配了-1，表示噪声

（2）调节参数，eps和min_samples不同取值下的簇分配

mglearn.plots.plot_dbscan()

在这里插入图片描述
在这张图中，属于簇的点是实心的，噪声点为空心。核心样本显示为较大的标记，边界点则显示为较小的标记。
增大eps，扩大核心点的领域，会让一个簇变得更大
增大min_samples会让一个簇中包含更多的点，同时核心点变小，噪声变多
1、eps决定了点与点之间“接近的含义”。eps小，表示没有点是核心样本，eps大，可能所有点成单个簇
2、min_samples是为了判断稀疏区域内的点被标记为异常值还是形成自己的簇

（3）应用于数据集make_moons
设置eps可以隐式地控制找到的簇的个数，使用StandardScaler或MinMaxScaler对数据进行缩放之后，有时会更容易找到eps的较好取值，因为使用这些缩放技术将确保所有特征具有相似的范围

X, y = make_moons(n_samples=200, noise=0.05, random_state=0)

scaler = StandardScaler()
scaler.fit(X)
X_scaled = scaler.transform(X)

dbscan = DBSCAN()
clusters = dbscan.fit_predict(X_scaled)

plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=clusters, cmap=mglearn.cm2, s=60)
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")