统计学习方法-K近邻法-读书笔记

1、前言

K近邻法是一种基本分类与回归方法。K近邻法是根据其K个最近邻的训练实例的类别,通过多数表决等方式进行预测,k值得选择,距离度量,分类决策规则是K近邻法得三个基本要素,K=1时,称为最近邻算法。

2、模型

当训练集,距离度量,k值以及分类决策规则确定后,特征空间已经根据这些要素被划分为一些子空间,且子空间里每个点所属得类也被确定。

3、策略

3.1 距离

特征空间中两个实例点的距离是相似程度的反应。K近邻算法一般使用欧氏距离,也可以使用一般的Lp或者Minkowski距离。
由于不同的距离度量所确定的最近邻点是不同的。

3.2 k值

k值较小时,整体模型变得复杂,容易发生过拟合。
k值较大时,整体模型变得简单。
k值通常采用交叉验证的方法确定。

3.3 分类决策规则

k近邻中的分类决策规则往往是多数表决,多数表决规则等价于经验风险最小化。

4、算法

根据给定距离度量,在训练集中找出与x最近邻的K个点,根据分类规则决定x的类别y

5、k近邻实现:kd树

k近邻最简单的实现方法是线性扫描,训练集很大的时候,计算非常耗时。kd 树是二叉树,表示对 k 维空间的一个划分,其每个节点对应于 k 维空间划分中的一个超矩形区域。利用 kd 树可以省去对大部分数据点的搜索,从而减少搜索的计算量。

5.1 构造kd树

kd树就是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树更适用于训练实例数远大于空间维数时的k近邻搜索。
kd树可以通过递归实现,在超距形区域上选择一个坐标轴和此坐标轴上的一个切分点,确定一个超平面,该超平面将当前区域分为两个子区域,在子区域上进行重复切分,直到子区域内没有实例终止。通常以此选择坐标轴和选定坐标轴上的中位数点为切分点,可以得到平衡kd树。

5.2 搜索kd树

从根节点出发,若目标x当前维的坐标小于切分点坐标,则移到左子节点,否则移到右子节点,直到子节点为叶结点为止。以此叶结点为当前最近点,递归的向上回退,在每个节点(a)如果该节点比当前最近节点更近,以该节点为当前最近点(b)当前最近点一定存在于该节点的一个子节点对应区域,检查该节点的另一子节点对应区域是否与以目标为球心,目标点与当前最近点间距离为半径的超球体相交,若相交,移动到另一个子节点,若不想交,向上退回,直到退回到根节点。

6、问题

遗留问题Ⅰ:为什么表决规则等价于经验风险最小化?
遗留问题Ⅱ:搜索kd树的过程混乱

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值