统计学习方法-K近邻法-读书笔记

最新推荐文章于 2021-01-04 16:46:26 发布

qq_38829768

最新推荐文章于 2021-01-04 16:46:26 发布

阅读量239

点赞数

分类专栏：学习笔记文章标签：统计学习方法 k近邻机器学习

本文链接：https://blog.csdn.net/qq_38829768/article/details/102970248

版权

学习笔记专栏收录该内容

17 篇文章 0 订阅

订阅专栏

统计学习方法-K近邻法-读书笔记

1、前言

K近邻法是一种基本分类与回归方法。K近邻法是根据其K个最近邻的训练实例的类别，通过多数表决等方式进行预测，k值得选择，距离度量，分类决策规则是K近邻法得三个基本要素，K=1时，称为最近邻算法。

2、模型

当训练集，距离度量，k值以及分类决策规则确定后，特征空间已经根据这些要素被划分为一些子空间，且子空间里每个点所属得类也被确定。

3、策略

3.1 距离

特征空间中两个实例点的距离是相似程度的反应。K近邻算法一般使用欧氏距离，也可以使用一般的Lp或者Minkowski距离。
由于不同的距离度量所确定的最近邻点是不同的。

3.2 k值

k值较小时，整体模型变得复杂，容易发生过拟合。
k值较大时，整体模型变得简单。
k值通常采用交叉验证的方法确定。

3.3 分类决策规则

k近邻中的分类决策规则往往是多数表决，多数表决规则等价于经验风险最小化。

4、算法

根据给定距离度量，在训练集中找出与x最近邻的K个点，根据分类规则决定x的类别y

5、k近邻实现：kd树

k近邻最简单的实现方法是线性扫描，训练集很大的时候，计算非常耗时。kd 树是二叉树，表示对 k 维空间的一个划分，其每个节点对应于 k 维空间划分中的一个超矩形区域。利用 kd 树可以省去对大部分数据点的搜索，从而减少搜索的计算量。

5.1 构造kd树

kd树就是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树更适用于训练实例数远大于空间维数时的k近邻搜索。
kd树可以通过递归实现，在超距形区域上选择一个坐标轴和此坐标轴上的一个切分点，确定一个超平面，该超平面将当前区域分为两个子区域，在子区域上进行重复切分，直到子区域内没有实例终止。通常以此选择坐标轴和选定坐标轴上的中位数点为切分点，可以得到平衡kd树。

5.2 搜索kd树

从根节点出发，若目标x当前维的坐标小于切分点坐标，则移到左子节点，否则移到右子节点，直到子节点为叶结点为止。以此叶结点为当前最近点，递归的向上回退，在每个节点（a)如果该节点比当前最近节点更近，以该节点为当前最近点（b)当前最近点一定存在于该节点的一个子节点对应区域，检查该节点的另一子节点对应区域是否与以目标为球心，目标点与当前最近点间距离为半径的超球体相交，若相交，移动到另一个子节点，若不想交，向上退回，直到退回到根节点。

6、问题

遗留问题Ⅰ：为什么表决规则等价于经验风险最小化？
遗留问题Ⅱ：搜索kd树的过程混乱

qq_38829768

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法-K近邻法-读书笔记

1、前言K近邻法是一种基本分类与回归方法。K近邻法是根据其K个最近邻的训练实例的类别，通过多数表决等方式进行预测，k值得选择，距离度量，分类决策规则是K近邻法得三个基本要素，K=1时，称为最近邻算法。2、模型当训练集，距离度量，k值以及分类决策规则确定后，特征空间已经根据这些要素被划分为一些子空间，且子空间里每个点所属得类也被确定。3、策略3.1 距离特征空间中两个实例点的距离是相似程...
复制链接

扫一扫

专栏目录