KNN K值的选择

最新推荐文章于 2024-08-13 11:32:36 发布

BlackEyes_SY

最新推荐文章于 2024-08-13 11:32:36 发布

阅读量1w

点赞数 4

分类专栏：机器学习文章标签： KNN 方差偏差

本文链接：https://blog.csdn.net/u011204487/article/details/105890168

版权

机器学习专栏收录该内容

23 篇文章 11 订阅

订阅专栏

文章目录

误差
KNN
- K值的选择

误差

近似误差：可以理解为对现有训练集的训练误差。
估计误差：可以理解为对测试集的测试误差。

近似误差关注训练集，如果近似误差小了会出现过拟合的现象，对现有的训练集能有很好的预测，但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。

估计误差关注测试集，估计误差小了说明对未知数据的预测能力好。模型本身最接近最佳模型。

KNN

k近邻算法是一种基本分类和回归方法。本篇文章只讨论分类问题的k近邻法。
k近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分类到这个类中（这就类似于现实生活中少数服从多数的思想）。
k近邻法使用的模型实际上对应于对特征空间的划分，模型有三个基本要素：距离度量、k值的选择和分类决策规则决定。

K值的选择

如果我们选取较小的k值，就相当于用较小的邻域中的训练实例进行预测，“学习”的近似误差会减小，只有与输入实例较近的训练实例才会对预测结果起作用。但缺点是“学习”的估计误差会增大，预测结果对邻近的实例点非常敏感。如果邻近的实例点恰巧时候噪声，预测就会出错。换句话说，k值的减小意味着整体模型变得复杂，容易发生过拟合。

如果不太理解k值小模型就复杂，我们不妨假设k=N，N为训练集大小，那么无论输入实例是什么，都将简单的预测它属于在训练实例中最多的类，这显然是不合理的。这时的模型是非常简单的，完全忽略训练实例中的大量有用信息。

如果选择较大的k值，就相当于用较大的邻域中的训练实例进行预测，其优点是可以可以减小“学习”的估计误差，但缺点是“学习”的近似误差会增大。这时与输入实例较远的训练实例也会对预测结果起作用，使预测发生错误。k值增大就意味着整体的模型变得简单。
在应用中，k值一般取一个较小的数值，通常采用交叉验证法来选取最优的k值。

https://blog.csdn.net/ortyijing/article/details/77816719
偏差、方差
https://www.cnblogs.com/solong1989/p/9603818.html