k近邻法是一种基本分类与回归方法,书中只讨论了分类问题的k近邻法。
一、模型
k近邻模型对应于特征空间的划分,由k值的选择、距离度量及分类决策规则三个基本要素决定。
二、策略
(一)k值的选择
k值的选择反映了对近似误差与估计误差之间的权衡,通常由交叉验证选择最优的k。
k值小时,近似误差较小,估计误差较大,模型较复杂,容易发生过拟合;
k值大时,估计误差较小,近似误差较大,模型较简单,预测错误率较高。
(二)距离度量
常用的方法是欧式距离、 L p L_p Lp距离。
两个n维向量 x i , x j x_i,x_j xi,xj的 L p L_p Lp距离定义为
L p ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ p ) 1 p , p ≥ 1 L_p(x_i,x_j)=({\sum\limits_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p})^{\frac{1}{p}},\quad p\geq1 Lp(xi,xj)=(l=1∑n∣xi(l)−xj(</