【python ML系列】python knn KNeighborsClassifier 最近邻算法选项用法示例详解

BigDataMLApplication

已于 2023-12-27 10:34:00 修改

阅读量1.4k

点赞数 19

分类专栏： python 数据挖掘文章标签： python 近邻算法开发语言

于 2023-12-18 18:50:36 首次发布

本文链接：https://blog.csdn.net/wang2leee/article/details/135069303

版权

python 同时被 2 个专栏收录

18 篇文章

订阅专栏

数据挖掘

12 篇文章

订阅专栏

本文详细介绍了sklearn.neighbors.KNeighborsClassifier模块的k最近邻算法，包括参数解释、权重选项、算法选择，以及如何使用fit、predict和predict_proba等方法进行分类和预测。通过实例演示了如何设置和调整参数以影响分类结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python knn KNeighborsClassifier 最近邻算法选项用法示例详解

文章目录

python knn KNeighborsClassifier 最近邻算法选项用法示例详解
sklearn.neighbors.KNeighborsClassifier
- 概述
- 参数
- 属性
- 方法
- 示例
- 方法
- - fit(X, y)
  - get_metadata_routing()
  - get_params([deep])
  - kneighbors([X, n_neighbors, return_distance])
  - kneighbors_graph([X, n_neighbors, mode])
  - predict(X)
  - predict_proba(X)
  - score(X, y[, sample_weight])
  - set_params(**params)
  - set_score_request(*[, sample_weight])
参考链接

sklearn.neighbors.KNeighborsClassifier

概述

sklearn.neighbors.KNeighborsClassifier是一个实现k最近邻投票的分类器。

阅读更多信息请参考用户指南。

参数

n_neighbors: int, 默认值为5，用于kneighbors查询的默认邻居数量。
weights: {‘uniform’, ‘distance’}，可调用对象或None，默认值为’uniform’，用于预测的权重函数。可能的取值有：
- 'uniform': 统一权重。每个邻域中的所有点都被等权重加权。
- 'distance': 根据其距离的倒数对点进行加权。在这种情况下，查询点附近的邻居将比远离的邻居具有更大的影响力。
- [callable]: 一个用户定义的函数，它接受一个距离数组，并返回一个形状相同的数组，其中包含权重。
参考标题为“最近邻分类”的示例，显示权重参数对决策边界的影响。
algorithm: {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}，默认值为’auto’，用于计算最近邻的算法。
- 'ball_tree'：使用BallTree算法。
- 'kd_tree'：使用KDTree算法。
- 'brute'：使用暴力搜索。
- 'auto'：根据传递给fit方法的值尝试确定最合适的算法。
注意：在稀疏输入上进行拟合将覆盖该参数的设置，使用暴力搜索。
leaf_size: int，默认值为30，传递给BallTree或KDTree的叶节点大小。这可以影响构建和查询的速度，以及存储树所需的内存。最佳值取决于问题的性质。
p: float，默认值为2，Minkowski度量的幂参数。当p = 1时，等价于使用曼哈顿距离（l1），当p = 2时等价于使用欧几里德距离（l2）。对于任意的p，使用闵可夫斯基距离（lp）。
metric: str或callable，默认值为’minkowski’，用于距离计算的度量标准。默认值为“minkowski”，当p = 2时，结果为标准欧几里德距离。参考scipy.spatial.distance的文档和distance_metrics中列出的度量标准的度量。

如果metric是“precomputed”，则假定X是一个距离矩阵，并且在拟合期间必须是方阵。X可能是一个稀疏图，此时只能考虑“非零”元素作为邻居。

如果metric是一个可调用函数，则它接受表示1D向量的两个数组作为输入，并且必须返回一个表示这些向量之间距离的值。这适用于Scipy的度量，但比将度量名称作为字符串传递效率低下。
metric_params: dict，默认值为None，度量函数的其他关键字参数。
n_jobs: int，默认值为None，用于邻居搜索的并行作业数。None表示1，除非在joblib.parallel_backend上下文中。-1表示使用所有处理器。有关更多详细信息，请参见术语表。不影响fit方法。

属性

classes_: 形状为(n_classes,)的数组，分类器已知的类标签。
effective_metric_: str或callable，所使用的距离度量。它将与metric参数相同，或者是其别名，例如，如果metric参数设置为’minkowski’，p参数设置为2，则为’euclidean’。
n_features_in_: int，拟合期间观察到的特征数量。
feature_names_in_: 形状为(n_features_in_,)的ndarray，拟合期间观察到的特征名称。仅当X具有全部为字符串的特征名称时才定义。
n_samples_fit_: int，拟合数据中的样本数量。
outputs_2d_: bool，如果y的形状为(n_samples,)或(n_samples, 1)则为False，否则为True。

方法

fit(X, y): 从训练数据集中拟合k最近邻分类器。
get_metadata_routing(): 获取此对象的元数据路由。
get_params([deep]): 获取此估计器的参数。
kneighbors([X, n_neighbors, return_distance]): 找到一个点的K个最近邻居。
kneighbors_graph([X, n_neighbors, mode]): 计算X中点的（加权）k个最近邻的图。
predict(X): 对提供的数据进行预测类标签。
predict_proba(X): 返回测试数据X的概率估计。
score(X, y[, sample_weight]): 返回给定测试数据和标签的平均准确率。
set_params(**params): 设置此估计器的参数。
set_score_request(*[, sample_weight]): 请求传递给得分方法的元数据。

示例

>>> X = [[0], [1], [2], [3]]
>>> y = [0, 0, 1, 1]
>>> from sklearn.neighbors import KNeighborsClassifier
>>> neigh = KNeighborsClassifier(n_neighbors=3)
>>> neigh.fit(X, y)
KNeighborsClassifier(...)
>>> print(neigh.predict([[1.1]]))
[0]
>>> print(neigh.predict_proba([[0.9]]))
[[0.666... 0.333...]]

方法

fit(X, y)

从训练数据集中拟合k最近邻分类器。

参数：

X：形状为(n_samples, n_features)或(n_samples, n_samples)的数组样本数据。
y：形状为(n_samples,)或(n_samples, n_outputs)的目标值。

self：拟合的k最近邻分类器。

get_metadata_routing()

获取此对象的元数据路由。

routingMetadataRequest：封装了路由信息的MetadataRequest。

get_params([deep])

获取此估计器的参数。

参数：

deep：bool，默认为True。如果为True，将返回此估计器和包含的子对象（例如Pipeline）的参数。

params：字典，参数名称映射到其值。

kneighbors([X, n_neighbors, return_distance])

找到一个点的K个最近邻居。

返回每个点的邻居的索引和距离。

参数：

X：形状为(n_queries, n_features)的查询点或点。如果未提供，则返回每个索引点的邻居。在这种情况下，查询点不被视为自己的邻居。
n_neighbors：int，默认为None，每个样本所需的邻居数量。默认值是传递给构造函数的值。
return_distance：bool，默认为True，是否返回距离。

neigh_dist：形状为(n_queries, n_neighbors)的数组，表示到每个点的长度，仅在return_distance=True时存在。
neigh_ind：形状为(n_queries, n_neighbors)的数组，最近点在群体矩阵中的索引。

kneighbors_graph([X, n_neighbors, mode])

计算X中点的（加权）k个最近邻的图。

参数：

X：形状为(n_queries, n_features)的查询点或点。如果未提供，则返回每个索引点的邻居。在这种情况下，查询点不被视为自己的邻居。对于metric=‘precomputed’，形状应为(n_queries, n_indexed)。否则，形状应为(n_queries, n_features)。
n_neighbors：int，默认为None，每个样本的邻居数。默认值是传递给构造函数的值。
mode：{‘connectivity’, ‘distance’}，默认为’connectivity’，返回矩阵的类型：'connectivity’将返回具有1和0的连接矩阵，'distance’中的边是点之间的距离，距离类型取决于NearestNeighbors类中选择的度量参数。