KNN K值的选择

文章目录

误差

近似误差:可以理解为对现有训练集的训练误差。
估计误差:可以理解为对测试集的测试误差。

近似误差关注训练集,如果近似误差小了会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。

估计误差关注测试集,估计误差小了说明对未知数据的预测能力好。模型本身最接近最佳模型。

KNN

k近邻算法是一种基本分类回归方法。本篇文章只讨论分类问题的k近邻法。
k近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分类到这个类中(这就类似于现实生活中少数服从多数的思想)。
k近邻法使用的模型实际上对应于对特征空间的划分,模型有三个基本要素:距离度量、k值的选择和分类决策规则决定。

K值的选择

如果我们选取较小的k值,就相当于用较小的邻域中的训练实例进行预测,“学习”的近似误差会减小,只有与输入实例较近的训练实例才会对预测结果起作用。但缺点是“学习”的估计误差会增大,预测结果对邻近的实例点非常敏感。如果邻近的实例点恰巧时候噪声,预测就会出错。换句话说,k值的减小意味着整体模型变得复杂,容易发生过拟合。

如果不太理解k值小模型就复杂,我们不妨假设k=N,N为训练集大小,那么无论输入实例是什么,都将简单的预测它属于在训练实例中最多的类,这显然是不合理的。这时的模型是非常简单的,完全忽略训练实例中的大量有用信息。

如果选择较大的k值,就相当于用较大的邻域中的训练实例进行预测,其优点是可以可以减小“学习”的估计误差,但缺点是“学习”的近似误差会增大。这时与输入实例较远的训练实例也会对预测结果起作用,使预测发生错误。k值增大就意味着整体的模型变得简单。
在应用中,k值一般取一个较小的数值,通常采用交叉验证法来选取最优的k值。

https://blog.csdn.net/ortyijing/article/details/77816719
偏差、方差
https://www.cnblogs.com/solong1989/p/9603818.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值