k 近邻
KNN分类回归方法:分类任务“投票法”,回归任务“平均法”。
懒惰学习的代表:在训练阶段仅仅是把样本保存起来,训练时间开销为0,待收到测试样本再进行处理。
模型: 利用训练数据集对特征向量空间进行划分,并作为分类的“模型”。
策略:多数表决规则(等价于经验风险最小化)。
多数表决规则:如果分类的损失函数为0-1损失函数
对给定的样本
x
x
,其最近邻的个训练实例点构成的集合
Nk(x)
N
k
(
x
)
。对应的类别为
cj
c
j
。
那么误分类率为
1k∑xi∈Nk(x)I(yi≠cj)=1−1k∑xi∈Nk(x)I(yi=cj)
1
k
∑
x
i
∈
N
k
(
x
)
I
(
y
i
≠
c
j
)
=
1
−
1
k
∑
x
i
∈
N
k
(
x
)
I
(
y
i
=
c
j
)
误分类率最小即经验风险最小,即
∑xi∈Nk(x)I(yi=cj)
∑
x
i
∈
N
k
(
x
)
I
(
y
i
=
c
j
)
最大。
k值的选取
小的k值,相当于用较小的训练实例进行预测,“学习”的近似误差会减小,
只有与输入实例较近的训练实例才会对预测结果起作用。
但是缺点是“学习”估计误差会增大,预测结果会对近邻的实例点非常敏感
k小模型复杂,易发生过拟合。
k大模型变得简单,极端情况,k=N,无论输入实例是什么,都将简单地预测它属于在训练实例中最多的类。