k近邻法是一种基本分类与回归方法。
k紧邻法的三个基本要素:k值的选择、距离度量、分类决策规则。
一、k近邻算法
输入:训练数据集T,要预测的特征向量x。
输出:特征向量x对应实例的类别y。
步骤:1.根据给定的距离度量,在训练集T中找出与x最近邻的k个点。
2.依据找出的k个点,根据决策规则决定x的类别y。
对分类模型,一般是对k个点进行投票,选择最多的类别。对于回归模型,取k个点对应y的平均值。
二、k近邻模型
1.距离度量:特征空间中两个实例点的距离是两个实例点的相似程度的反映,一般使用欧氏距离。
距离定义:
p=2,称为欧氏距离,p=1称为曼哈顿距离,p=时,它是各个坐标距离的最大值。
2.k值得选择
k值选择较小:学习的估计误差会增大,预测结果会对实例点十分敏感,模型变得复杂,容易发生过拟合
k值选择较大:学习的近似误差会增大,与预测实例较远的点也会起预测作用,模型变得简单。
一般k选择一个比较小的值,采用交叉验证来选取最优。
3.分类决策规则
分类:一般是多数表决,等价于经验风险最小化。
回归:取平均值。