机器学习十大算法----k近邻法（kNN）

最新推荐文章于 2023-03-08 17:17:10 发布

望天的无尾熊

最新推荐文章于 2023-03-08 17:17:10 发布

阅读量542

点赞数

文章标签：机器学习 kNN

本文链接：https://blog.csdn.net/liuheng94/article/details/78746117

版权

定义：给定一个训练数据集，对新的数据实例，在训练数据集中找到与该实例最近邻的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类(可以取多类)。

近邻法是一种基本的分类与回归方法，k近邻算法没有显示的学习过程，其实际上利用训练数据集对特征向量的空间进行划分，并作为其分类的“模型”，模型的三个基本要素为：k值的选择，距离度量，分类决策规则决定。k=1时称为最近邻算法。

k值较小，”学习“的近似误差会减小，只有与输入实例较近的（相似的）的实例才会对预测结果起作用，估计误差会增大，预测结果会对近邻的实例点非常敏感。换句话说，k值的减小意味着整体模型变得复杂，容易发生过拟合。
k值较大，”学习“的近似误差会增大，估计误差会减小。这时与输入实例较远的（不相似的）训练实例也会对预测起作用。k值的增大意味着整体模型变得简单
在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值，在《机器学习实战》一书中指出参数k的取值一般通常不大于20。

特征空间中两个实例点的距离是两个实例点相似程度的反映。kNN中一般使用的是欧式距离，以及更一般的Lp距离等。
1. Lp距离 $L p (x i, x j) = (\sum l = 1 n | x (l) i - x (l) j | p) 1 / p$ $L_p(x_i,x_j) = (\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p)^ {1/p}$
2. 当p=2时，称为欧式距离 $L p (x i, x j) = \sum l = 1 n | x (l) i - x (l) j | 2 - - - - - - - - - - - - \sqrt$ $L_p(x_i,x_j) = \sqrt{\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^2}$
3. 当p=1时，称为曼哈顿距离 $L p (x i, x j) = \sum l = 1 n | x (l) i - x (l) j |$ $L_p(x_i,x_j) = \sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|$
4. 当p=无穷时，他是各个坐标距离的最大值 $L p (x i, x j) = max l | x (l) i - x (l) j |$ $L_p(x_i,x_j) = \max_l|x_i^{(l)}-x_j^{(l)}|$

优点
简单，易于理解，易于实现，无需估计参数，无需训练
适合对稀有事件进行分类（例如当流失率很低时，比如低于0.5%，构造流失预测模型）
特别适合于多分类问题(multi-modal,对象具有多个类别标签)
缺点
懒惰算法，对测试样本分类时的计算量大，内存开销大，评分慢
可解释性较差，无法给出决策树那样的规则。

关注