k-近邻法模型实际上对应于模型空间的划分。
模型有三个基本要素:距离度量、值的选择、分类决策规则决定
距离度量
不同距离度量下得到的最近邻点是不同的。
k值的选择
值较小时,相当于较小的淋雨中的训练实例进行预测,学习的近似误差会减小,但是估计误差会增大,就是说只有输入详尽的训练实例才会对预测结果起作用。如果邻近的实例点恰巧是噪声,预测就会出错。
这意味着整体模型变的复杂,容易发生过拟合。
如果选择较大的值,其优点是可以减小学习的估计误差,缺点是近似误差会增大,与输入实例较远的(不相似的)训练实例也会对预测起作用,
值的增大意味着模型变得简单。
时,无论输入实例是什么,都将简单预测为在训练实例中最多的类,这时模型过于简单。
分类决策规则
多数表决。
多数表决法等价于经验风险最小化。
近邻法的实现:
树
树是二叉树,表示对特征空间的划分。
开始,构造根节点,根节点对应所有数据。
依此对每个特征做划分,以特征的中位数作为切分点,将数据且分为两个子区域,分别对应当前切分特征的值小于切分点和大于切分点的两个子区域,等于中位数的数据保存在当前根节点。
重复上述步骤。
停止条件:两个子区域没有实例时停止。
最近邻搜索算法