统计学习方法——k近邻

最新推荐文章于 2022-01-07 10:29:09 发布

qq_41393570

最新推荐文章于 2022-01-07 10:29:09 发布

阅读量242

点赞数

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/qq_41393570/article/details/81098020

版权

统计学习方法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、K近邻模型

模型：特征空间的划分，基本三要素——距离度量、k值的选择何分类决策规则

策略：距离度量：欧式距离、曼哈顿距离等

k值：通常采用交叉验证（k越小，越容易过拟合）

分类决策规则：多数表决

二、KNN算法基本步骤：

1）计算待分类点与已知类别的点之间的距离

2）按照距离递增次序排序

3）选取与待分类点距离最小的k个点

4）确定前k个点所在类别的出现次数

5）返回前k个点出现次数最高的类别作为待分类点的预测分类

三、kd树

kd树是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树，表示对k维空间的一个划分，其每个节点对应于k维空间划分中的一个超矩形区域，利用kd树可以省去大部分数据点的搜索，从而减少搜索的计算量。

3.1 构造kd树

kd树难点解释：

切分维度选择最优化：方差从大到小，方差越大，数据越分散，切分效果越好
中值选择优化：第一种方法：对所有数据，排序选其中值；第二种方法：对随机选择部分数据，排序选其中值。

四、用kd树的最近邻搜索

输入：已构造的kd树；目标点x；

输出：x的最近邻。

1）在kd树中找出包含目标点x的叶节点：从根节点出发，递归的向下访问kd树。若目标点x当前维的坐标小于切分点的坐标，则移动到左子节点，否则移动到右子节点。直到子节点为叶节点为止(停在父节点)。

2）以此叶节点为“当前最近点“

3）递归地向上回退，在每个节点进行以下操作；

a、如果该节点（父节点）保存的实例点比当前最近的点距离目标点更近，则以该实例点位”当前最近点“。
b、当前最近点一定存在于该节点一个子节点对应的区域，检查该子节点的父节点的另一个子节点对应的区域是否有更近的点，具体的，检查另一子节点对应的区域是否与以目标点位球心、以目标点与”当前最近点“间的距离为半径的超球体相交。

如果相交，可能在另一个子节点对应的区域内存在距目标点更近的点，移动到另一个子节点，接着，递归的进行最近邻搜索；

如果不相交，向上回退。

4）当回退到跟节点时，搜索结束，最后的”当前最近点“即为x的最近邻点。