K 近邻算法
- 原理 : 给定一个实例, 在训练集中找到与实例距离最近的 k 个训练数据, 这个实例的类别就是这 k 个训练数据的多数属于的类别
- 三个要素 : 超参数 K 的选择, 距离计算方法, 最终的分类决策规则
- 当 k = 1 的时候, 就是最近邻算法, 就是找距离最近的一个的实例的类别作为实例的分类
- k 值的选择很重要, 如果说k 值太大, 会导致距离较远的训练实例对预测实例产生影响, 如果 k 值太小, 只有距离很近的 训练实例会对其产生影响, 但是对训练实例很敏感, 如果遇到噪声就会出错, 所以最近邻算法缺点很明显, 对训练集要求很高
- K 值通常使用交叉验证的方法确定
下面给出 k 近邻算法的