李航《统计学习方法》第二版-第3章 k近邻法浅见

最新推荐文章于 2024-01-24 22:16:36 发布

王伟王胖胖

最新推荐文章于 2024-01-24 22:16:36 发布

阅读量463

点赞数

分类专栏：机器学习李航统计学习方法第二版浅见文章标签：李航《统计学习方法》第二版-第3章 k近邻法统计学习方法 k近邻机器学习统计学习

本文链接：https://blog.csdn.net/wangwei19871103/article/details/97017294

版权

机器学习同时被 2 个专栏收录

33 篇文章 3 订阅

订阅专栏

李航统计学习方法第二版浅见

5 篇文章 2 订阅

订阅专栏

李航《统计学习方法》第二版-第3章 k近邻法浅见

3.0 k近邻简单介绍
3.1 k近邻算法
3.2 k近邻模型
3.2.1 模型
3.2.2 距离度量
3.2.3 k值选择
3.2.4 分类决策规则
3.3 kd树
- 总结

3.0 k近邻简单介绍

k近邻暂时讨论分类方法，可以简单理解为我要去个地方，我找周围k个最近的人问问该走哪条路(对应类别)，告诉我最多走的那条路就是我要走的路。你选k个人，选离你多远的人，选择哪条路对应着k值选择，距离度量和分类决策规则，是k近邻法的三个基本要素。实际上这3个要素定了之后，就对样本的特征空间进行了划分，也就可以分类了。

3.1 k近邻算法

算法就是上面说到的分类决策规则，选告诉你最多的那条路，就是统计所有k个人告诉你的路，哪条路的数量最多，就认为是哪条路。

算法步骤：

输入：训练集 $T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$
其中 $x_i \in X=R^n$ 为样本的特征向量 $y_i\in Y=\{c_1,c_2,...,c_K\}$ 为样本的类别， $i = 1, 2, . ., N$ 。

输出：y的类别
1.根据给定距离度量，找出距离x个最近的k个样本点，涵盖k个点的x的邻域即做 $N_k(x)$ .
2.在 $N_k(x)$ 中选择类别数量最多的类别作为y的类别：
$\displaystyle y= arg \max_{ c_j} \sum_{x_i \in N_k(x)} I(y_i=c_i),i=1,2,...,K$
$I$ 为指示函数，即 $y_i=c_i$ 时 $I = 1$ ，否则 $I = 0$ .
可见k近邻没有跟其他算法一样的学习过程，只是衡量周围的类别多少。
那张图来做说明，绿色的点是新来的样本，如果他根据最近3个点，而且距离度量是实线圆内的话，会发现有2个红色，一个蓝色，那红色的类别多，所以新来的应该是红色。但是如果把点扩大为5个，距离度量扩大到虚线圆内，居然发现蓝色3个比红色2个多，那就变成是蓝色的类别了，可见具体什么类别跟k值和距离度量关系很大啊：
在这里插入图片描述

3.2 k近邻模型

3.2.1 模型

在k近邻中，如果k值，距离度量确定，分类决策规则确定，那新的实例的类别就确定了，这相当于把特征空间进行了划分，确定了每个点的类别。

3.2.2 距离度量

其实距离度量，就是反应出两个样本之间的相似程度，如果距离很小，就说明很相近，如果距离0就说明一样啦。一般的距离有欧氏距离，曼哈顿距离，更一般的可以归结为$L_p距离:
$L_p(x_i,x_j)=(\sum_{l=1}^n |x_i^{(l)}-x_j^{(l)}|^p )^{\frac {1}{p}}$