《统计学习方法》学习笔记3——k近邻法

最新推荐文章于 2021-04-01 19:32:56 发布

007djx

最新推荐文章于 2021-04-01 19:32:56 发布

阅读量426

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_22791959/article/details/96422339

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、k近邻算法

算法描述：

输入：训练数据集

$T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$

其中， $x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}$ 为实例的特征向量， $y_{i} \in \mathcal{Y}=\left\{c_{1}, c_{2}, \cdots, c_{K}\right\}$ 为实例的类别，i=1,2,...,N；实例特征向量x；

输出：实例x所属的类y。

（1）根据给定的距离度量，在训练集T中找出与x最邻近的k个点，包含这k个点的x邻域记作 $N_{k}(x)$ ；

（2）在 $N_{k}(x)$ 中根据分类决策规则，决定x的类别y：

$y=\arg \max _{c_{j}} \sum_{x_{i} \in N_{k}(x)} I\left(y_{i}=c_{j}\right), \quad i=1,2, \cdots, N ; \quad j=1,2, \cdots, K$

上式中，I为指示函数，当 $y_{i}=c_{j}$ 时，I=1，否则 I=0。

特殊情况：当k=1时，成为最近邻算法，对于输入的实例点（特征向量）x,最近邻法将训练数据集中与x最邻近的类作为x的类。

二、k近邻模型

1、模型：k近邻算法中，当训练集，距离度量、k值及分类决策规则确定后，对于任何一个新的输入样例，它所属的类唯一地确定。

2、距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反应，k近邻模型的特征空间一般是n维实数向量空间 $\mathbf{R}^{n}$ 。使用欧氏距离、 $L_{p}$ 距离或 Minkowski距离。

假设特征空间中的两个点 $x_{i}, x_{j} \in \mathcal{X}, \quad x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}$ ， $x_{j}=\left(x_{j}^{(1)}, x_{j}^{(2)}, \cdots, x_{j}^{(n)}\right)^{\mathrm{T}}$ ，两点的 $L_{p}$ 距离定义为：

$L_{p}\left(x_{i}, x_{j}\right)=\left(\sum_{l=1}^{n}\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^{p}\right)^{\frac{1}{p}}$ ，当p=2时，称为欧式距离，当p=1时，称为曼哈顿距离，当 $p=\infty$ 时，它是各个坐标距离的最大值，即 $L_{\infty}\left(x_{i}, x_{j}\right)=\max _{l}\left|x_{i}^{(l)}-x_{j}^{(l)}\right|$

3、k值的选择

k值的选择对k近邻算法的结果产生重要影响。

若选择较小的k值，相当于用较小邻域中的训练实例进行预测，“学习”的近似误差会减小，只有与输入实例相似的训练实例才会对结果起作用，缺点是估计误差会增大。即k值的减小会使整体模型变得复杂，容易发生过拟合。

若选择较大的k值，相当于用较大邻域中的训练实例进行预测，可减少估计误差，但是学习的近似误差会增大。k值的增大意味着整体模型变得简单。

若k=N（实例总体数），那么无论输入实例是什么，都将简单地预测它属于在训练实例中最多的类。这时，模型过于简单，忽略训练实例中大量有用信息，不可行！

在实际应用中，k值一般取一个较小的值，通常采用交叉验证法来选取最优的k值。

4、分类决策规则

k近邻法中的决策规则使用较多的是多数表决，即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。

三、k近邻法的实现：kd树

为了提高k近邻搜索的效率，考虑使用特殊的结构存储训练数据，以减少计算距离的次数。具体方法有很多，下面介绍kd树。

1、构造kd树

kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是二叉树，表示对K维空间的一个划分。

构造平衡kd树的算法：

输入：k维空间数据集 $T=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$ ，其中 $x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(k)}\right)^{\mathrm{T}}, \quad i=1,2, \cdots, N$

输出：kd树

（1）开始：构造根节点，根节点对应于包含T的k维空间的超矩形区域。

选择 $x^{(1)}$ 为坐标轴，以T中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根节点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现。

由根节点生成深度为1的左右子节点；左子节点对应坐标 $x^{(1)}$ 小于切分点的子区域，右子节点对应于坐标 $x^{(1)}$ 大于切分点的子区域。

将落在切分超平面上的实例点保存在根节点。

（2）重复：对深度为j的节点，选择 $x^{(1)}$ 为切分的坐标轴， $l=j(\bmod k)+1$ ，以该节点的区域中所有实例的 $x^{(l)}$ 坐标的中位数为切分点，将该节点对应的超矩形区域切分为两个子区域，切分由通过切分点并与坐标轴 $x^{(l)}$ 垂直的超平面实现。

（3）直到两个子区域没有实例存在时停止。

四、kd树的搜索

输入：已构造的kd树，目标点x;

输出：x的最近邻

（1）在kd树中找出包含目标点x的叶结点；从根节点出发，递归地向下访问kd数。若目标点x当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点。直到子结点为叶节点为止。

（2）此叶节点为“当前最近点”。

（3）递归地向上回退，在每个结点进行以下操作：

（a）如果该节点保存的实例点比当前最近点距离目标最近，则以该实例点为“当前最近点”。

（b）当前最近点一定存在于该节点一个子结点对应的区域。检查该子结点的父节点的另一子结点对应的区域是否有最近的点。

如果相交，可能在另一子结点对应的区域内存在距目标点更近的点，移动到另一子结点。接着，递归地进行最邻近搜索；

如果不相交，向上回退。

（4）当回退到根结点时，搜索结束。最后的“当前最近点”即为x的最近邻点。

007djx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》学习笔记3——k近邻法

一、k近邻算法算法描述：输入：训练数据集其中，为实例的特征向量，为实例的类别，i=1,2,...,N；实例特征向量x；输出：实例x所属的类y。（1）根据给定的距离度量，在训练集T中找出与x最邻近的k个点，包含这k个点的x邻域记作；（2）在中根据分类决策规则，决定x...
复制链接

扫一扫