k近邻
简介
k近邻法是一种基本分类与回归方法。在这里我们只讨论分类问题中的k近邻法。
三要素
- k值的选择
- 距离度量
- 分类决策规则
最后会引入一种k近邻的实现方法——kd树。
3. 1 k近邻算法
算法:
输入:训练数据集T
输出:实例x所属的类y
- 根据给定的距离度量,在训练集中找到和x最近的
k
个点 - 在这k个点中根据分类决策规则,决定x的类别
注意:k近邻法没有显示的学习过程
3.2 k近邻模型
模型由上述的三要素决定。
k值的选择
实际上只要记住:
选择较小的k值,模型变得复杂,容易出现过拟合;选择较大的k值,模型变得简单,可以减小估计误差,但容易欠拟合。
距离度量
一般使用欧氏距离。
分类决策规则
一般使用多数表决规则(majority voting rule)。
多数表决规则等价于经验风险最小化。
3.3 kd树
注意此处的k是指储存k维的数据的树结构,而不是k近邻中的k。
kd树是用来提高k近邻法实现效率问题的。
主