统计学习笔记之K近邻法

最新推荐文章于 2022-12-19 16:19:31 发布

遇见一只执着的猴子

最新推荐文章于 2022-12-19 16:19:31 发布

阅读量193

点赞数

分类专栏：统计学习

本文链接：https://blog.csdn.net/qq_26564783/article/details/82191327

版权

统计学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

K近邻作为基本的分类和回归方法。在分类中，对新的实例，根据k个最近邻得训练实例的类别，通过多数表决进行预测。

一、算法

输入： $T =\left \{ (x_{1},y_{1}),(x_{2},y_{2}),\cdots (x_{n},y_{n}) \right \}$ ， $x_{i}\in \mathbb{X}$ 为实例的特征向量， $y_{i}\in \mathbb{Y} =\left \{ c_{1},c_{2}\cdots c_{n} \right \}$ 为实例的类别。

输出：实例的的所属的类y。

（1）根据给定距离度量，在训练集中找出与最近邻的k个点，涵盖这k个点的x的领域记作 $N_{k}\left ( x \right )$ 。

（2）在 $N_{k}(x)$ 根据分类决策规则（类似多数投票）决定x属于哪一类。

二、相关概念

值得一提的是关于距离度量的几个概念。

距离通式：

$L_{p}\left ( x_{i},y_{i} \right )=\left [ \sum_{l=1}^{n} \left | x_{i}^{\left ( l \right )} -y_{i}^{\left ( l \right )}\right |^{p}\right ]^{\frac{1}{p}}$

欧式距离，p=2,即

$L_{2}\left ( x_{i},y_{i} \right )=\left [ \sum_{l=1}^{n} \left | x_{i}^{\left ( l \right )} -y_{i}^{\left ( l \right )}\right |^{2}\right ]^{\frac{1}{2}}$

曼哈顿距离，p=1,即

$L_{1}\left ( x_{i},y_{i} \right )=\sum_{l=1}^{n} \left | x_{i}^{\left ( l \right )} -y_{i}^{\left ( l \right )}\right |$

各个坐标距离的最大值， $p=\infty$ ，即

$L_{\infty }\left ( x_{i},y_{i} \right )=max_{l} \left | x_{i}^{\left ( l \right )} -y_{i}^{\left ( l \right )}\right |$

下图直观展示了三种不同度量方式在表示到原点距离是1的点画出的图像：

三、kd树

KNN在对数据进行k近邻搜索的时候，有时因为数据量较大，搜索开销是个值得思考的问题。于是，kd树的思想应运而生。实际上，kd树是二叉树，是考虑将k维空间实例点进行存储和便于快速检索的树形数据结构。

算法

输入：k维空间数据集 $T=\left \{ x_{1},x_{2}, \cdots x_{n} \right \},x_{i}=(x^{(1)},x^{(2)}\cdots x^{(n)})$

输出：kd树

（1）构造根节点，包含T的k维空间的超矩形区域。

（2）选择 $x^{(1)}$ 的坐标轴，以T中的所有实例的 $x^{(1)}$ 坐标的中位数作为切分点，通过切分点并于坐标轴 $x^{(1)}$ 垂直作超平面，将超矩形区域分成两个子区域。以此生成深度为1的左右两个结点，左结点表示 $x^{(1)}$ 小于切分点的子区域，右结点表示 $x^{(1)}$ 大于切分点的子区域。