4-kNN-k近邻算法（k-Nearest Neighbors）

最新推荐文章于 2024-07-22 08:39:18 发布

Acowardintheworld

最新推荐文章于 2024-07-22 08:39:18 发布

阅读量175

点赞数

分类专栏： Python3入门机器学习非参数模型文章标签：机器学习 python 最近邻分类算法

本文链接：https://blog.csdn.net/cowardintheworld/article/details/120486263

版权

Python3入门机器学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

非参数模型

2 篇文章 0 订阅

订阅专栏

4-kNN-k近邻算法（k-Nearest Neighbors）

4-1 kNN算法基础

在这里插入图片描述

4-2 scikit-learn中的机器学习算法封装

在这里插入图片描述

4-3 训练数据集，测试数据集

在这里插入图片描述

4-4 分类准确度

4-5 超参数

在这里插入图片描述

KNN算法没有模型参数，只有一个超参数K,就是相邻点的数量。
但是如果考虑相邻点的距离占据权重，那么相邻的点都需要赋予权值，一般都是取距离的导数加权，1/distance。
可以参考scikit-learn关于KNN的官方文档说明。
KNN的参数说明：https://scikit-learn.org/stable/modules/neighbors.html
在这里插入图片描述

官方文档关于KNN相关参数的介绍：
https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

4-6 网格搜索与k近邻算法中更多超参数

在这里插入图片描述

sklearn.neighbors.DistanceMetric也可以认为是一种超参数，但是这个参数好像和p是互斥的。
在这里插入图片描述
参考文档：https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.DistanceMetric.html#sklearn.neighbors.DistanceMetric

4-7 数据归一化

在这里插入图片描述

4-8 scikit-learn中的Scaler

在这里插入图片描述

在这里插入图片描述
在官方文档找到的主要归一化的方式应该是四种，比较常用的有均值方差归一化和最值归一化，相关文档说明如下：
均值方差归一化：
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler
最值归一化：
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html#sklearn.preprocessing.MinMaxScaler

1.均值方差归一化 StandardScaler

z = (x - u) / s —— 减均值除均方差（但是验证数据的时候，还是有偏差，没搞明白）
文档里的例子，官方文档的链接里有许多样本案例。

>>> from sklearn.preprocessing import StandardScaler
>>> data = [[0, 0], [0, 0], [1, 1], [1, 1]]
>>> scaler = StandardScaler()
>>> print(scaler.fit(data))
StandardScaler()
>>> print(scaler.mean_)
[0.5 0.5]
>>> print(scaler.transform(data))
[[-1. -1.]
 [-1. -1.]
 [ 1.  1.]
 [ 1.  1.]]
>>> print(scaler.transform([[2, 2]]))
[[3. 3.]]