一种基本分类和回归模型
测量不用特征值之间距离来进行分类
关键点: K值选择、距离度量、分类决策规则
优点:精度高,对异常值不敏感,无数据输入假定。
缺点:计算复杂度高、空间复杂度高。
适用数据范围:数值型和标称型
1,计算已知类别数据集中对点于当前点之间点距离。
2,按照距离递增次序排序。
3,选择与当前点距离最小点k个点。
4,确定前k个点所在类别点出现概率。
5,返回前k个点出现频率最高点类别最为当前点的预测分类。
k值小容易过拟合,模型复杂;k值大简单预测训练集最多的类,模型简单,缺失信息;k值通常采用交叉验证来确定。
k近邻通常采用多数表决。
采用kd树优化训练过程。
相当于不断地用垂直于一个坐标轴的超平面将空间划分,kd树每一个节点对应一个划分区域,最终kd树叶节点对应所有实例。
通常采用中位数来作为切分点。使kd树尽可能平衡。
对于深度为j的节点,选择x(l)作为切分的坐标轴,l = j (mod k) + 1;
其实就是循环采用每个坐标轴。