k-NN 是一种基本分类与回归方法。
输入为实例的特征向量,对应于特征空间的点;
输出为实例的类别,可以取多类
分类时,对于新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。
因此,k近邻不具有显式的学习过程。
k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。
k值的选择、距离度量、分类决策规则是k近邻法的三个基本要素。
其中:
距离度量:
p = 2 为欧式距离
p = 1 为曼哈顿距离
p = ∞ 为各个坐标距离的最大值即
k值小时,k近邻模型更复杂,k值的选择反应了对近似误差与估计误差之间的权衡,通常由交叉验证选择最优的K
常用的分类规则是多数表决,对应于经验风险最小化
KD树是一种便于对K维空间重的数据进行快速检索的数据结构