统计学习方法第三章

最新推荐文章于 2021-06-26 22:09:05 发布

田小成plus

最新推荐文章于 2021-06-26 22:09:05 发布

阅读量2.1k

点赞数 2

分类专栏： ml 统计学习方法

本文链接：https://blog.csdn.net/tiangcs/article/details/56959595

版权

ml 同时被 2 个专栏收录

12 篇文章 2 订阅

订阅专栏

统计学习方法

5 篇文章 0 订阅

订阅专栏

统计学习方法第三章：K近邻

K近邻法和其他的机器学习方法不太一样，因为它没有显示的学习的过程，可以理解为没有训练的过程。
K近邻思想:给定一个训练集，当对新的测试样本分类时，分别计算测试样本和训练集中每个样本的距离即相似度，从中选择前K个最相似的样本，然后从这K个最相似样本中，选择出现次数最多的类别作为测试样本的类别。可见K近邻法的好坏与三个因素有关：如何度量样本相似度(距离度量)？K值如何选取(K值选择)？K个样本中采取怎样的策略确定测试样本的类别(分类决策规则)？，如果这三个要素确定了，则对于新的样本可以唯一确定其类别。
距离度量：欧式距离(L2距离)，曼哈顿距离(L1距离)，L∞距离
K值的选择：K值选择会对结果有重大影响。如果K选的比较小，模型会比较复杂，泛化能力差，容易造成过拟合。K值选择大，模型比较简单，但是训练实例容易受较远的点的影响，导致训练误差增大，但是泛化能力会有所提升。
在应用中K值一般选取较小的值。然后采取交叉验证的方法来确定K值。
分类决策规则：通常采用多数投票的方式，由最相似的前K个样本中出现次数最多的类别作为预测样本的类别。
KD树

实现k近邻法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索。这在特征空间的维数大及训练数据容量大时尤其必要。k近邻法最简单的实现是线性扫描（穷举搜索），即要计算输入实例与每一个训练实例的距离。计算并存储好以后，再查找K个近邻。当训练集很大时，计算非常耗时，存储也很耗空间。为了提高kNN搜索的效率，可以考虑使用特殊的结构存储训练数据，以减小计算距离的次数。

　　kd树(K-dimension tree)是一种对k维空间(这里的K不是K个近邻的意思，而是样本特征向量的维度)中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是是一种二叉树，表示对k维空间的一个划分，构造kd树相当于不断地用垂直于坐标轴的超平面将K维空间切分，构成一系列的K维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。

　　构造kd树的方法如下：首先构造根结点，这里说的节点是K维特征空间中的一个超矩形区域，根结点就对应于K维空间中包含所有实例点的超矩形区域；通过下面的递归的方法，不断地对k维空间进行切分，生成子结点。在超矩形区域上选择一个坐标轴(K维中的某一维)和在此坐标轴上的一个切分点，确定一个超平面，这个超平面通过选定的切分点并垂直于选定的坐标轴，将当前超矩形区域切分为左右两个子区域（子结点）；这时，实例被分到两个子区域，这个过程直到子区域内没有实例时终止（终止时的结点为叶结点，对应的矩形区域为空）。在此过程中，将实例保存在相应的结点(超矩形区域)上。

　　由此就可以引出两个问题：选择哪一个轴(维度)？选择该轴的上的哪个样本进行切分？通常，循环的选择(依次按顺序选择)坐标轴对空间切分，然后选择训练实例点在该坐标轴上的中位数为切分点，所谓中位数是将所有样本在该轴上的数值从小到大排列，选择中间位置的数或者中间两个数的平均数作为中位数，但是中位数不一定存在于这个序列中，如果这样就选择与中位数最接近的那个样本点作为切分点，并垂直于选定的坐标轴将当前矩形分为两个子空间。左侧子空间在该坐标轴上都是小于中位数的，右侧子空间在该坐标轴上都是大于中位数的，这样得到的kd树是平衡的（平衡二叉树：它是一棵空树，或其左子树和右子树的深度之差的绝对值不超过1，且它的左子树和右子树都是平衡二叉树）。这样构造出来的KD树是二叉树，二叉树的节点是每一次的切分点。

　　KD树中每个节点是一个特征向量，和二叉树按照数的大小划分不同的是，KD树每层需要选定向量中的某一维，然后根据这一维按左小右大的方式划分数据。在构建KD树时，关键需要解决2个问题：（1）选择向量的哪一维进行划分；（2）如何划分数据。第一个问题简单的解决方法可以是选择随机选择某一维或按顺序选择，但是更好的方法应该是在数据比较分散的那一维进行划分（分散的程度可以根据方差来衡量）。好的划分方法可以使构建的树比较平衡，可以每次选择中位数来进行划分，这样问题2也得到了解决。
　　
搜索KD树
构建KD树之后，可以省去对大部分数据点的搜索，从而减少搜索的计算量，因为每次都会选择一侧区间而放弃另一侧，不像线性搜索那样遍历全部数据点。下面以搜索最近邻点为例加以叙述：给定一个目标点，搜索其最近邻，首先找到包含目标点的叶节点(不能再划分的区域)；然后从该叶结点出发，依次回退到父结点；不断查找与目标点最近邻的结点，当确定不可能存在更近的结点时就终止。这样搜索就被限制在空间的局部区域上，效率大为提高。（有点类似于算法中的回溯法）

下面列出KD树的最近邻搜索的步骤，至于前K个近邻的搜索只需要重复这个过程即可，只不过目标点不同而已。第一次目标点是输入样例，第二次目标点是第一次的结果，如此重复K次。

kd树的最近邻搜索：　　
输入：已构造的kd树；目标点xx；
输出：xx的最近邻。

（1）在kd树中找出包含目标点xx的叶结点：从根结点出发，递归的向下访问kd树。若目标点当前维的坐标值小于切分点的坐标值，则移动到左子结点，否则移动到右子结点。直到子结点为叶结点为止；
（2）以此叶结点为“当前最近点”；
（3）递归的向上回退，在每个结点进行以下操作：
　　（a）如果该结点保存的实例点比当前最近点距目标点更近，则以该实例点为“当前最近点”；
　　（b）当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一个子结点对应的区域是否有更近的点。具体的，检查另一个子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。如果相交，可能在另一个子结点对应的区域内存在距离目标更近的点，移动到另一个子结点。接着，递归的进行最近邻搜索。如果不相交，向上回退。
（4）当回退到根结点时，搜索结束。最后的“当前最近点”即为xx的最近邻点。
拿书上的例子举例说明：
　　给定一个二维空间数据集：T={(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}T={(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}，首先要构造KD树，根结点对应包含数据集T的矩形，选择x(1)x(1)轴，6个数据点的x(1)x(1)坐标中位数是6，这里选最接近的(7,2)点，以平面x(1)=7x(1)=7将空间分为左、右两个子矩形（子结点）；接着左矩形以x(2)=4x(2)=4分为两个子矩形（左矩形中{(2,3),(5,4),(4,7)}点的x(2)x(2)坐标中位数正好为4），右矩形以x(2)=6x(2)=6分为两个子矩形，如此递归，最后得到如下图所示的特征空间划分和kd树。
　　这里写图片描述
　　假如要查找目标点（3,4.5）的最近邻点。同样先进行二叉查找，先从（7,2）查找到（5,4）节点，在查找由y = 4为分割超平面的区间，由于查找点为y值为4.5，因此进入右子空间查找到（4,7），到达叶节点形成搜索路径：（7,2）→（5,4）→（4,7），取（4,7）为当前最近邻点。以目标查找点为圆心，目标查找点到当前最近点的距离2.69为半径确定一个红色的圆，如下图所示。然后回溯到（5,4），计算其与查找点之间的距离为2.06，则该结点比当前最近点距目标点更近，以(5,4)为当前最近点。用同样的方法再次确定一个绿色的圆，可见该圆和y = 4超平面相交，所以需要进入（5,4）结点的另一个子空间进行查找。（2,3）结点与目标点距离为1.8，比当前最近点要更近，所以最近邻点更新为（2，3），最近距离更新为1.8，同样可以确定一个蓝色的圆。接着根据规则回退到根结点(7,2)，蓝色圆与x=7的超平面不相交，说明x=7的右侧空间不会产生更近的近邻(好比回溯法中的剪枝。。。我真是太会举一反三了，哈哈)，因此不用进入（7,2）的右子空间进行查找。至此，搜索路径回溯完，返回最近邻点（2,3），最近距离1.8。
　　这里写图片描述