K值过小:
容易受到异常点的影响
K值的减小就意味着整体模型变得复杂,容易发生过拟合;
eg:判断是不是人?
眼睛,鼻子,黄皮肤
皮肤颜色为过拟合
k值过大:
受到样本均衡的问题
与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。
eg:判断是不是人?
特征值:眼睛,鼻子
?呢?
如何选择K值?
近似误差:对现有训练集的训练误差,关注训练集,如果近似误差过小可能会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。
估计误差:可以理解为对测试集的测试误差,关注测试集,估计误差小说明对未知数据的预测能力好,模型本身最接近最佳模型。