统计学习方法笔记（三）

最新推荐文章于 2024-11-18 00:00:00 发布

bujidaodxbc

最新推荐文章于 2024-11-18 00:00:00 发布

阅读量211

点赞数

分类专栏：统计学习方法笔记文章标签：机器学习

本文链接：https://blog.csdn.net/bujidaodxbc/article/details/104195702

版权

统计学习方法笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

k近邻法

k近邻法（k-nearest neighbor，k-NN）。输入为实例的特征向量，对应于特征空间中的点；输出为实例的类别，可以取多类。

3.1 k近邻算法

算法简述：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。
k近邻法没有显示的学习过程。
k近邻算法

3.2 k近邻模型

三个基本要素：
距离度量；k值的选择；分类决策规则

模型

k近邻法中，当训练集、距离度量（如欧氏距离）、k值及分类决策规则（如多数表决）确定后，对于任何一个新的输入实例，它所属的类唯一地确定。（这相当于根据上述要素将特征空间划分为一些子空间，确定子空间里的每个点所属的分类。）
在特征空间中，对每个训练实例点x_i，距离该点比其他点更近的所有点组成一个区域，叫做cell。每个训练实例点拥有一个cell，所有训练实例点的cell构成对特征空间的一个划分。最近邻法将实例x_i的类y_i作为其单元中所有点的类标记（class label），这样，每个cell的实例点的类别是确定的，

距离度量

k近邻距离度量
由不同的距离度量所确定的最近邻点是不同的。

k值

k值的选择会对k近邻法的结果差生重大影响。
k值小意味着整体模型变得复杂，容易发生过拟合。
（如果选择较小的k值，相当于用较小的邻域中的训练实例进行预测，优点是模型“学习”的近似误差会减小，只有与输入实例较近的（相似的）训练实例才会对预测结果起作用。但是缺点是“学习”的估计误差会增大，预测结果会对近邻的实例点非常敏感，而若近邻的实例点恰巧是噪声的话，预测就会出错。）
k值大意味着整体模型变得简单，容易忽略训练实例中的有用信息。
（如果选择较大的k值，相当于用较大的邻域中的训练实例进行预测。优点是可以减少学习的估计误差。缺点是增大近似误差。这时与输入实例较远的（不相似的）训练实例也会对预测起作用，容易导致预测错误。）
极端情况，如果k=N，那么无论输入实例是什么，都将简单地预测它属于在训练实例中最多的类。这时，模型过于简单，完全忽略训练实例中的大量有用信息，是不可取的。
在应用中，k值一般取一个比较小的数值。通常采用交叉验证法来选取最优的k值。

分类决策规则

往往是多数表决，即，由输入实例的k个临近的训练实例中的多数类决定输入实例的类。
多数表决规则

3.3 k近邻法的实现–kd树

首先，实现k近邻时，主要考虑的问题是如何对训练数据进行快速k近邻搜索。k近邻法最简单的实现方法是线性扫描，即，计算输入实例与每一个训练实例的距离，但是当训练集非常大时，显然计算非常耗时，是不可取的。为了提高k近邻搜索的效率，考虑使用特殊的结构存储训练数据，以减少计算距离的次数。由此引出kd树（kd-tree）。

构造kd树

kd树是二叉树。表示对k维空间的一个划分（partition）。
具体构造算法就不写了
构造过程简述：
构造根结点，使根结点对应于k维空间中包含所有实例点的超矩形区域；
通过以下递归方法，不断对k维空间进行划分，生成子节点；
（这个划分方式就是）在超矩形区域上选择一个坐标轴和在此坐标轴上的一个切分点，确定一个超平面，这个超平面通过选定的切分点并垂直于选定的坐标轴，将当前超矩形区域切分为左右（或上下）两个子区域；这时，实例被分到两个子区域。
上述过程直到子区域内没有实例时终止。
通常，依次选择坐标轴对空间切分，选择训练实例点在选定坐标轴上的中位数（median）为切分点，这样的到的kd树是平衡的。
注意，平衡的kd树搜索时的效率未必是最优的。

搜索kd树

利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。
kd搜索的基本思想：给定一个目标点，搜索其最近邻。首先找到包含目标点的叶结点；然后从该叶结点出发，依次回退到父结点；不断查找与目标点最邻近的结点，当确定不可能存在更近的结点时终止。
kd树搜索的平均计算复杂度是O(logN)，这里N是训练实例数。kd树适用于训练实例数远大于空间维数时的k近邻搜索。当空间维数接近于训练实例数时，它的效率会迅速下降，几乎接近线性扫描。
kd搜索最近邻