sklearn.neighbors.NNeighborsClassifier 详细说明

最新推荐文章于 2024-05-22 11:15:07 发布

hgz_dm

最新推荐文章于 2024-05-22 11:15:07 发布

阅读量5.6k

点赞数 2

分类专栏：第三方库文章标签： sklearn NNeighborsClassifier K最邻近分析

本文链接：https://blog.csdn.net/huguozhiengr/article/details/88558909

版权

本文详细解析了sklearn.neighbors.NNeighborsClassifier中的参数，包括n_neighbors、weights、algorithm、leaf_size、p和metric。介绍了如何根据数据特性选择参数以优化K最近邻分类器的性能，如设置权重、选择搜索算法和距离度量方式。

摘要由CSDN通过智能技术生成

平时会用到sklearn.neighbors.NNeighborsClassifier函数来构建K最邻近分类器，所以这里对NNeighborsClassifier中的参数进行说明，文中参考的是scikit-learn 0.20.3版本。

NNeighborsClassifier函数中参数如下：

n_neighbors：类别预测时，选择的最邻近数据点数量，默认为5。设置该参数时需要注意，设置得过大容易将一些较远的样本引入，造成误分类，尤其是在数据密度分布不均匀时，不过这个问题可以通过对样本施加权重来改善；设置得过小时噪声的影响就非常明显。

weights：设置邻近范围内数据点的权重，默认是不施加权重，采用'uniform'，所有数据点都一样。在施加权重时，一般可以选择 ‘distance’ 或者自定义权重的施加方式。采用‘distance’时，权重是数据点与待分类点距离的倒数，使用更多的权重函数是高斯函数，这个需要用户自定义，在自定义权重函数时，输入参数是一些列距离值，返回值是一些列权重值。

algorithm: 选择K最邻近分类器构建算法。构建K最邻近分类器的过程主要是用 ‘距离’ 的度量准则、采用合理的数据结构存储训练集，在类别预测时能够快速的搜索数据。目前常用的数据结构是 “球树(ball-tree)”、"KD树(kd-tree)"，暴力搜索方然也是