机器学习笔记二——k近邻

最新推荐文章于 2024-05-27 18:05:33 发布

米法·

最新推荐文章于 2024-05-27 18:05:33 发布

阅读量293

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/TSzero/article/details/117839017

版权

机器学习专栏收录该内容

26 篇文章 23 订阅

订阅专栏

一、K近邻

1.1 基本介绍

k近邻法（k-NN）是一种基本的分类和回归方法，更偏向于分类。k近邻简单直观：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最接近的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。k近邻模型没有显式的学习过程，有三个要素：k值的选择、距离度量和分类决策规则。

1.2 k值的选择

如果选择较小的k值，就相当于用较小的邻域中的训练实例进行预测，近似误差会减小，但估计误差会增大，容易受到噪声的干扰。也意味着模型整体变得比较复杂，容易发生过拟合。

如果选择较大的k值，就相当于用较大的邻域中的训练实例进行预测，可以减少学习的估计误差，但学习的近似误差会增大。也意味着模型变得简单，容易发生欠拟合。

通常是选取一个比较小的值，然后采用交叉验证法来选取最优的k值。

1.3 距离的度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。不妨设特征空间是 $\bm R^n$ ，有两点 $x_i=(x_i^{(1)}, x_i^{(2)}, \cdots, x_i^{(n)}), x_j=(x_j^{(1)}, x_j^{(2)}, \cdots, x_j^{(n)})$ ，一般使用的有 $L_p$ 距离和Minkowski距离：

$L_p$ 距离： $L_p(x_i, x_j)=(\sum\limits_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p)^{\frac{1}{p}}\tag1$
欧式距离（ $p = 2$ ）： $L_2(x_i, x_j)=(\sum\limits_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^2)^{\frac{1}{2}}\tag2$
曼哈顿距离（ $p = 1$ ）： $L_p(x_i, x_j)=(\sum\limits_{l=1}^n|x_i^{(l)}-x_j^{(l)}|)\tag3$
$p=\infty$ 时， $L_{\infty}(x_i, x_j)=\max_l|x_i^{(l)}-x_j^{(l)}|\tag4$

1.4 分类决策规则

k近邻法中的分类决策规则往往是多数表决，即由输入实例的 $k$ 个邻近的训练实例中的多数类决定输入实例的类。

二、k近邻法的实现：kd树

2.1 基本思想

k近邻法最简单的实现方法是线性扫描，这时要计算输入实例与每个训练实例的距离，当训练集很大时，计算非常耗时。为了提高k紧邻搜索的效率，可以使用特殊的结构存储训练数据，以减少计算距离的次数，其中的一种方法就是kd树。

2.2 构造kd树

kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是二叉树，表示对k维空间的一个划分。

构造kd树的方法如下：构造根节点，使根节点对应于k维空间中包含所有实例点的超矩形区域。通过下面的递归方法，不断的对k维空间进行划分，生成子节点。即：在超矩形区域上选择一个坐标轴和在此坐标轴上的一个切分点（一般为中位数），确定一个超平面，这个超平面通过切分点并垂直于选定的坐标轴，将当前超矩形区域切分为左右两个子区域（子节点）；这时，实例点被分到两个子区域。这个过程直到子区域内没有实例点时终止（终止的节点为叶节点）。