统计学习方法——k近邻

一、K近邻模型

  • 模型:特征空间的划分,基本三要素——距离度量、k值的选择何分类决策规则

  • 策略:距离度量:欧式距离、曼哈顿距离等

                  k值:通常采用交叉验证(k越小,越容易过拟合)

                  分类决策规则:多数表决

 

二、KNN算法基本步骤:

1)计算待分类点与已知类别的点之间的距离

2)按照距离递增次序排序

3)选取与待分类点距离最小的k个点

4)确定前k个点所在类别的出现次数

5)返回前k个点出现次数最高的类别作为待分类点的预测分类

 三、kd树

kd树是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树,表示对k维空间的一个划分,其每个节点对应于k维空间划分中的一个超矩形区域,利用kd树可以省去大部分数据点的搜索,从而减少搜索的计算量。

3.1 构造kd树

kd树难点解释:

  • 切分维度选择最优化:方差从大到小,方差越大,数据越分散,切分效果越好
  • 中值选择优化:第一种方法:对所有数据,排序选其中值;第二种方法:对随机选择部分数据,排序选其中值。

四、用kd树的最近邻搜索

输入:已构造的kd树;目标点x;

输出:x的最近邻。

1)在kd树中找出包含目标点x的叶节点:从根节点出发,递归的向下访问kd树。若目标点x当前维的坐标小于切分点的坐标,则移动到左子节点,否则移动到右子节点。直到子节点为叶节点为止(停在父节点)。

2)以此叶节点为“当前最近点“

3)递归地向上回退,在每个节点进行以下操作;

  •  a、如果该节点(父节点)保存的实例点比当前最近的点距离目标点更近,则以该实例点位”当前最近点“。
  •  b、当前最近点一定存在于该节点一个子节点对应的区域,检查该子节点的父节点的另一个子节点对应的区域是否有更近的点,具体的,检查另一子节点对应的区域是否与以目标点位球心、以目标点与”当前最近点“间的距离为半径的超球体相交。

如果相交,可能在另一个子节点对应的区域内存在距目标点更近的点,移动到另一个子节点,接着,递归的进行最          近邻搜索;

如果不相交,向上回退。

4)当回退到跟节点时,搜索结束,最后的”当前最近点“即为x的最近邻点。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值