【Ch2】k - 近邻算法

最新推荐文章于 2023-01-15 10:00:22 发布

宿命&苏铭

最新推荐文章于 2023-01-15 10:00:22 发布

阅读量98

点赞数

文章标签：算法机器学习 sklearn

本文链接：https://blog.csdn.net/qq_24887131/article/details/120189390

版权

一，算法原理

knn算法的核心思想是未标记样本的类别，由距离其最近的k个邻居投票来决定。
具体的，假设我们有一个已标记好的数据集。此时有一个未标记的数据样本，我们的任务是预测出这个数据样本所属的类别。knn的原理是，计算待标记样本和数据集中每个样本的距离，取距离最近的k个样本。待标记的样本所属类别就由这k个距离最近的样本投票产生。
假设X_test为待标记的样本，X_train为已标记的数据集，算法原理的伪代码如下：

遍历X_train中的所有样本，计算每个样本与X_test的距离，并把距离保存在Distance数组中。
对Distance数组进行排序，取距离最近的k个点，记为X_knn。
在X_knn中统计每个类别的个数，即class0在X_knn中有几个样本，class1在X_knn中有几个样本等。
待标记样本的类别，就是在X_knn中样本个数最多的那个类别。

二，KNN算法的优势和劣势

了解KNN算法的优势和劣势，可以帮助我们在选择学习算法的时候做出更加明智的决定。那我们就来看看KNN算法都有哪些优势以及其缺陷所在！

KNN算法优点

简单易用，相比其他算法，KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。
1，模型训练时间快，上面说到KNN算法是惰性的，这里也就不再过多讲述。
2，预测效果好。
3，对异常值不敏感

KNN算法缺点

1，对内存要求较高，因为该算法存储了所有训练数据
2，预测阶段可能很慢
3，对不相关的功能和数据规模敏感

例程

from sklearn.datasets._samples_generator import make_blobs
import matplotlib.pyplot as plt
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

# 生成数据
centers = [[-2, 2], [2, 2], [