密度聚类(DBSCAN)

本文介绍了如何利用sklearn库中的DBSCAN类进行密度聚类,详细阐述了DBSCAN的参数设置,包括eps、min_samples、metric等,为理解和应用DBSCAN提供了基础。
摘要由CSDN通过智能技术生成

class sklearn.cluster.DBSCAN(eps=0.5min_samples=5metric=’euclidean’metric_params=Nonealgorithm=’auto’leaf_size=30p=Nonen_jobs=None)

参数:

eps : float,可选

两个样本之间的最大距离,一个被认为是另一个样本的邻域。这不是群集中点的距离的最大界限。这是为您的数据集和距离函数选择适当的最重要的DBSCAN参数。

min_samples : int,可选

对于要被视为核心点的点,邻域中的样本数(或总权重)。这包括点本身。

metric : string或callable

计算要素数组中实例之间距离时使用的度量标准。如果metric是字符串或可调用的,则它必须是sklearn.metrics.pairwise_distances其metric metric参数允许的选项之一。如果度量是“预先计算的”,则假定X是距离矩阵,并且必须是正方形。X可以是稀疏矩阵,在这种情况下,只有“非零”元素可以被认为是DBSCAN的邻居。

版本0.17中的新功能:度量预先计算以接受预先计算的稀疏矩阵。

metric_params : dict,可选

度量函数的其他关键字参数。

版本0.19中的新功能。

algorithm : {'auto','ball_tree','kd_tree','brute'},可选

NearestNeighbors模块用于计算逐点距离并找到最近邻居的算法。有关详细信息,请参阅NearestNeighbors模块文档。

leaf_size : int,optional(默认值= 30)

叶子大小传递给BallTree或cKDTree。这可能会影响构造和查询的速度,以及存储树所需的内存。最佳值取决于问题的性质。

: float,可选

用于计算点之间距离的Minkowski度量的功效。

n_jobs : int或None,可选(默认=无)

要运行的并行作业数。 None除非在joblib.parallel_backend上下文中,否则表示1 。 -1表示使用所有处理器。有关 详细信息,请参阅词汇表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值