K-近邻法
KNN是一个分类与回归模型,可进行多分类,属于判别模型和非概率模型。用一句话描述这个模型,就是在特征空间中,离待分类点最近的K个点中出现最多的类标签,即是该待分类点的类标签。k=1时称为最近邻算法。KNN实际把特征空间划分成了若干子空间,在子空间内同类别。
K-近邻模型
由于KNN属于惰性(lazy)模型,没有显式的学习过程,使用统计学习方法三要素描述不方便,这里考虑另外三个要素,即距离度量,超参数k的确定以及分类策略
距离度量
特征空间中,两个实例点的距离,是两个实例点相似程度的反映。常见的距离度量是 L p L_{p} Lp距离度量公式 ( p ≥ 1 ) (p \geq 1) (p≥1)。
L p ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ p ) 1 p L_{p}(x_{i},x_{j})=(\sum\limits^{n}_{l=1}|x_{i}^{(l)}-x_{j}^{(l)}|^{p})^{\frac {1}{p}} Lp(xi,xj)=(l=1∑n∣xi(l)−xj(l)∣p)p1
当p=1时,为曼哈顿距离:
L 1 ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ ) L_{1}(x_{i},x_{j})=(\sum\limits^{n}_{l=1}|x_{i}^{(l)}-x_{j}^{(l)}|) L1(xi,xj)=(l=1∑n∣xi(l)−xj(l)∣)
当p=2时,为欧式距离:
L 2 ( x i , x j ) = ( ∑ l = 1 n ∣ x i ( l ) − x j ( l ) ∣ 2 ) 1 2 L_{2}(x_{i},x_{j})=(\sum\limits^{n}_{l=1}|x_{i}^{(l)}-x_{j}^{(l)}|^{2})^{\frac {1}{2}} L2(xi,xj)=