K近邻法
K近邻法的输入为实例的特征向量,对应特征空间的点;输出为实例的类别,可以取多个类。K近邻法的三个基本要素是k值的选择、距离度量和分类决策规则。(推导公式太麻烦,偷懒了,详细证明过程或者kd树推荐查看李航的《统计学习方法》)
主要思路: 在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这各类。
距离度量: k近邻模型特征空间一般是n维的实数向量空间
Rn
. 一般使用的是欧式聚类,当然也可以是
Lp
距离或者是Minkowski距离。
K值选择: k值过小,会出现过拟合的情况(学习的近似误差较小,但估计误差会变大)。K值过大,估计误差较小,但学习误差会很大。可以用交叉验证法来选取k值。
分类决策规则: 多数表决规则等价于经验风险最小化。