【ML】使DBSCAN 变得简单 & 如何使用 Scikit-Learn 进行 Python 教程

Sonhhxg_柒

已于 2023-09-01 13:43:51 修改

阅读量1.5k

点赞数 4

分类专栏：机器学习（ML）文章标签： python scikit-learn 机器学习

于 2023-09-01 13:43:37 首次发布

本文链接：https://blog.csdn.net/sikh_0529/article/details/132622310

版权

机器学习（ML）专栏收录该内容

147 篇文章 143 订阅

订阅专栏

本文介绍了DBSCAN聚类算法，包括其工作原理、重要参数、优点（如适应复杂簇形、自动发现簇数和处理噪声）以及缺点（对参数敏感和处理不同密度的挑战）。同时，对比了HDBSCAN的改进之处，并提供了使用scikit-learn在Python中实现DBSCAN的教程。

摘要由CSDN通过智能技术生成

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎

📝个人主页－Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝

📣系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟👋

什么是 DBSCAN？

DBSCAN 代表“基于密度的噪声应用程序空间聚类”。它是机器学习和数据挖掘中流行的聚类算法，用于将高维空间中彼此靠近的数据点分组。DBSCAN 对于发现任意形状的簇和识别数据集中的噪声点特别有用。

文章目录

什么是 DBSCAN？

DBSCAN 算法解释

使用 DBSCAN 时的重要注意事项

DBSCAN 的优点和缺点

优点

缺点

DBSCAN 的替代方案有哪些？

什么是 HDBSCAN？

HDBSCAN 与传统聚类算法相比具有多种优势

如何使用 sklearn 在 Python 中进行 DBSCAN 教程

结论

DBSCAN 背后的主要思想是将簇定义为由稀疏区域分隔的数据点的密集区域。这与k-means等传统聚类算法形成鲜明对比，后者将聚类假设为球形或凸面形状，并且可能会处理非线性和不规则的聚类结构。

DBSCAN 算法解释

DBSCAN 的工作原理是考虑两个主要参数：

Epsilon (ε)：此参数定义数据点周围的半径，用于确定其邻域。该半径内的点被视为中心点的邻居。
MinPoints：此参数设置形成密集区域或簇所需的最小点数。在其 ε 半径内至少有 MinPoints 个邻居的点被视为核心点。非核心但落在核心点 ε 半径内的点被视为边界点。既不是核心点也不是边界点的点被视为噪声点。

该算法进行如下：

核心点识别：DBSCAN 确定其 ε 半径内是否有足够的邻居来被视为每个数据点的核心点。
聚类扩展：该算法通过从核心点开始添加相邻的核心点和边界点来扩展聚类。此过程递归地继续，直到无法添加更多点为止。
密度可达性：从核心点（直接或通过核心点链）可到达的点是同一集群的一部分。从任何核心点都无法到达的点被视为噪声。

DBSCAN 的优点是能够发现不同形状和大小的簇、抗噪声能力以及无需预先指定簇的数量即可找到簇的能力。然而，DBSCAN 对 ε 和 MinPoints 参数的选择很敏感，并且可能难以处理密度显着不同的簇。

DBSCAN 的优点是能够发现不同形状和大小的簇。

使用 DBSCAN 时的重要注意事项

选择参数：为 ε 和 MinPoints 选择适当的值至关重要。这些参数的选择取决于数据和所需的集群特征。
处理异常值：DBSCAN 可以自然地识别噪声点（异常值），因为它们没有分配给任何簇。
簇形状：DBSCAN 有效地找到任意形状的簇，并且可以处理不同大小和密度的簇。
可扩展性：DBSCAN 的性能可能会受到数据集大小和参数选择的影响。对于较大的数据集，可能需要优化或替代算法。
距离度量：用于计算点之间距离的距离度量的选择会影响结果。

DBSCAN 的优点和缺点

DBSCAN（基于密度的噪声应用空间聚类）是一种鲁棒的聚类算法，但它与任何方法一样都有优点和缺点。

优点

处理复杂簇形状的能力： DBSCAN 可以发现任意形状的簇，包括非凸形状和不规则形状，而 k 均值等传统方法很难处理这些形状。
自动簇数： DBSCAN 不需要您提前指定簇数，适合簇数未知或可变的情况。
噪声检测： DBSCAN 自然地识别和标记噪声点、不属于任何簇的数据点。这对于异常值检测很有价值。
对异常值具有鲁棒性： 噪声点和异常值不会显着影响聚类过程，因为 DBSCAN 侧重于密集区域而不是到所有数据点的距离。
高效处理： DBSCAN的算法复杂度相对较低，尤其是在处理大型数据集时。它不需要对所有点对进行先验距离计算，这使得它比层次聚类方法更快。
适用于各种数据类型： DBSCAN 不限于任何特定的数据类型或度量空间，使其可以应用于广泛的数据。

缺点

对参数的敏感性： DBSCAN 的性能可能对参数的选择敏感，例如 epsilon (ε) 和 min_samples。找到最佳参数值可能具有挑战性，需要领域知识或实验。
不同密度的困难： DBSCAN 可能难以处理包含密度显着不同的簇的数据集。它可能会将低密度区域视为噪声或形成意外的簇。
高维数据的困难： 与许多聚类算法一样，由于维数灾难，DBSCAN 在处理高维数据时可能面临挑战。
初始化： DBSCAN 的性能可能会因点的初始选择而异，这可能会影响集群的创建，并可能导致结果不理想。
缺乏全局最优保证： DBSCAN 找到局部密度最大值，如果密度分布复杂，则可能会错过数据中的全局结构。
并不适合所有数据集： 虽然 DBSCAN 是一种通用算法，但在某些情况下，其他聚类算法（例如 k 均值或分层聚类）可能更合适。

DBSCAN 是一种有价值的工具，用于识别任意形状的数据中的簇并检测噪声点。它自动确定聚类数量的能力及其对异常值的鲁棒性是至关重要的优势。然而，参数调整和对不同密度的敏感性可能会给实际应用带来挑战。选择聚类方法时，必须考虑数据集和问题的具体特征。

DBSCAN 的替代方案有哪些？

如果您正在寻找 DBSCAN 之外的选项，则可以考虑多种替代聚类算法。算法的选择取决于数据的特征、您尝试发现的集群的性质以及您的具体目标。以下是一些替代方案：

K-Means 聚类：K-means 是最广泛使用的聚类算法之一。它通过最小化数据点与其聚类质心之间的距离平方和，将数据划分为指定数量的聚类。它简单而高效，但假设簇是球形的且大小相等。
分层聚类：该算法系列通过迭代合并或拆分聚类来构建聚类层次结构。凝聚层次聚类从单个数据点作为聚类开始，然后根据链接标准将它们连接起来。分裂层次聚类从所有数据点作为单个聚类开始，并递归地划分它们。
均值偏移聚类：均值偏移通过迭代地将点移向其邻域模式（高密度区域）来将簇识别为高数据密度区域。它对于查找不同形状和大小的簇非常有效。
高斯混合模型 (GMM)：GMM 假设数据点是由多个高斯分布的混合生成的。它估计这些分布的参数，并根据可能性将数据点分配给聚类。
聚合聚类：聚合聚类通过迭代合并最相似的聚类来构建聚类层次结构。它很灵活，可以处理各种簇形状，但对于大型数据集来说，计算成本可能很高。
OPTICS：用于识别聚类结构的基于顺序的聚类 (OPTICS) 是 DBSCAN 的扩展，它产生聚类排序而不是严格的分区。它可以处理不同的密度并提供簇结构的可视化。
谱聚类：谱聚类使用相似性矩阵的特征向量将数据投影到较低维的空间中，在该空间中聚类更容易分离。它对于复杂的簇形状很有用，并且可以处理非凸簇。
BIRCH：Balanced Iterative Reducing and Clustering using Hierarchies (BIRCH) 是一种内存高效的层次聚类算法，适用于大型数据集。它构造一个树结构来表示数据。
亲和传播：亲和传播识别数据点之间的样本，并根据它们的相似性将其他点分配给这些样本。它可以处理不同的簇大小并自动确定簇的数量。
自组织映射 (SOM)：SOM 是一种无监督神经网络技术，可将高维数据映射到低维网格上，从而保留数据的拓扑结构。它对于可视化和识别集群很有用。

请记住，算法的选择取决于数据集的大小、所需的聚类形状、噪声的存在以及数据的性质等因素。尝试多种算法并评估它们对您的问题的性能通常是一个好主意。

什么是 HDBSCAN？

HDBSCAN 是“带有噪声的基于分层密度的空间聚类应用程序”的缩写，是原始 DBSCAN 算法的扩展，为基于密度的聚类添加了分层方法。HDBSCAN 旨在解决 DBSCAN 的一些限制，并提供更强大、更灵活的集群解决方案。它结合了层次聚类方法和基于密度的聚类方法的优点。

以下是 HDBSCAN 工作原理的概述：

1.输入参数：

数据集：包含要聚类的数据点的数据集。
MinPoints：在 ε 半径内将一个点视为核心点所需的最小点数。
MinClusterSize：簇被视为有效所需的最小点数。

2.构建层次图：

该算法首先创建一个相互可达性图，类似于 DBSCAN 如何识别核心点及其可达点。然而，HDBSCAN 不是只考虑直接密度可达点，而是根据其共享邻居计算每对点之间的相互可达距离。

3.压缩图表：

HDBSCAN 使用一种称为“单链接聚类”的技术构建层次图的压缩树。该树表示不同密度级别的簇的层次结构。

4.识别集群层次结构：

从树的最密集层开始，根据阈值通过切割不同层的分支来形成簇。用户确定可以使用“最小簇大小”标准选择的阈值。

5.异常值检测：

不属于任何簇且不属于最小簇大小的点被标记为异常值。

HDBSCAN 与传统聚类算法相比具有多种优势

自动确定簇数：HDBSCAN 不需要您预先指定簇数。它提供了可以在不同粒度级别进行探索的集群层次结构。
处理不同密度的集群：HDBSCAN可以有效地管理不同密度的集群，这是传统DBSCAN的局限性。
产生稳定的结果：分层方法有助于生成稳定且稳健的集群分配。
识别噪声点：HDBSCAN 还可以识别不属于任何簇的噪声点。

然而，HDBSCAN 的性能可能会受到其超参数的影响，例如 MinPoints、MinClusterSize 以及切割集群层次结构的阈值。为这些超参数找到合适的值可能需要实验和数据理解。

HDBSCAN 是 DBSCAN 的扩展，它引入了分层聚类方法，使其能够发现不同密度的簇并自动确定数据中簇的数量。

如何使用 sklearn 在 Python 中进行 DBSCAN 教程

以下示例展示了如何通过流行的机器学习库scikit-learn在 Python 中使用 DBSCAN 算法。

在运行此代码之前，请确保在 Python 环境中安装 scikit-learn 和 matplotlib。您可以使用以下方式安装它们：

pip install scikit-learn matplotlib

import numpy as np
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# Generate some sample data
n_samples = 300
n_features = 2
X, _ = make_blobs(n_samples=n_samples, n_features=n_features, centers=4, cluster_std=0.60, random_state=0)

# Create a DBSCAN instance
epsilon = 0.3  # Epsilon radius
min_samples = 5  # Minimum number of points to form a core point
dbscan = DBSCAN(eps=epsilon, min_samples=min_samples)

# Fit the DBSCAN model to the data
labels = dbscan.fit_predict(X)

# Number of clusters in labels, ignoring noise points (-1)
n_clusters = len(set(labels)) - (1 if -1 in labels else 0)
n_noise = list(labels).count(-1)

print(f'Estimated number of clusters: {n_clusters}')
print(f'Estimated number of noise points: {n_noise}')

# Visualize the clusters
unique_labels = set(labels)
colors = [plt.cm.Spectral(each) for each in range(len(unique_labels))]
for k, col in zip(unique_labels, colors):
    if k == -1:
        col = [0, 0, 0, 1]  # Black for noise points

    class_members = [index[0] for index in np.argwhere(labels == k)]
    cluster_core_samples = [index for index in class_members if labels[index] != -1]
    
    plt.plot(X[class_members, 0], X[class_members, 1], 'o', markerfacecolor=tuple(col), markersize=10)
    plt.plot(X[cluster_core_samples, 0], X[cluster_core_samples, 1], 'o', markerfacecolor=tuple(col), markersize=15)
    
plt.title('Estimated number of clusters: %d' % n_clusters)
plt.show()