第三章： K近邻法

笨笨sg

已于 2024-06-30 14:58:31 修改

阅读量572

点赞数 5

分类专栏：《统计学习方法》——李航文章标签： K近邻法

于 2024-05-19 16:08:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a131529/article/details/139043814

版权

《统计学习方法》——李航专栏收录该内容

23 篇文章 0 订阅

订阅专栏

本笔记仅记录《统计学习方法》中各个章节算法|模型的简要概述，比较泛泛而谈，用于应对夏令营面试可能会问的一些问题，不记录证明过程和详细的算法流程。大佬可自行绕路。

更多章节内容请参阅：李航《统计学习方法》学习笔记-CSDN博客

目录

K近邻法概述：

K近邻算法的三个基本要素：

算法流程：

三个基本要素详解：

距离度量：

K值的选择：

分类决策规则：

构造平衡kd树的算法流程：

构造平衡kd树的例子：

用kd树进行最近邻搜索的算法流程：

用kd树进行最近邻搜索的例子：

K近邻法概述：

一种基本分类与回归方法。大致思想就是已经获得了一个标签打好的训练数据集，分类时，对新的实例，根据其K个最近邻的训练实例的类别，通过多数表决等方式进行预测，也即没有显示的学习过程。

K近邻算法的三个基本要素：

K值的选择
距离度量
分类决策规则

算法流程：

三个基本要素详解：

K近邻算法中，当三个基本要素全部确定之后，那么对于任何一个新的输入实例，它所属的类别便唯一确定。

距离度量：

K近邻算法认为特征空间中两个实例点的距离是两个实例点相似程度的反映。

Lp距离：

p值的不同对应不同的距离度量方式，主要包括欧式距离和曼哈顿距离。

K值的选择：

K值的减小会使模型变得复杂，因为会造成更少的点对预测样本的类别产生影响，容易发生过拟合；若是过大则会导致欠拟合。因此一般选用一个适中的较小的K值，通常采用交叉验证的方式来进行选取。

分类决策规则：

往往是多数表决。

kd树：

kd树中的k是指k维，不是k类。

如果对数据进行快速K近邻搜索非常重要。最简单的办法是线性扫描，但是时间开销较大，而采用kd树这种特殊的结构存储训练数据可以减少计算距离的次数。

其基本思想是依次划分子区域，通常选择训练实例点在选定坐标轴上的中位数作为切分点，这样得到的kd树是平衡的，但是需要注意平衡的kd树在搜索时的效率未必时最优的。

当空间维数远小于训练实例数时，非常适合采用kd树进行k近邻搜索；担当两者相近时，它的效率会迅速下降，几乎接近线性扫描。

构造平衡kd树的算法流程：

构造平衡kd树的例子：

用kd树进行最近邻搜索的算法流程：

用kd树进行最近邻搜索的例子：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。