【笔记_统计学习方法】ch3 k近邻（k-NN）

FRENKIE_AIGC

于 2023-02-02 11:43:50 发布

阅读量101

点赞数

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36315954/article/details/128847068

版权

学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

k-NN是一种无参数学习方法，用于分类和回归。其主要基于实例，通过寻找输入实例最近的k个邻居进行决策。距离度量包括Lp距离，如欧氏距离和曼哈顿距离。k值的选择影响模型复杂度，小k值易过拟合，大k值可能导致欠拟合。kd树是k-NN的优化实现，用于高效搜索最近邻。

摘要由CSDN通过智能技术生成

1. 算法概念

用于分类（二分类、多分类）、回归
k 近邻法的学习过程：没有显示的学习过程。

1）【分类原理】
确定输入实例特征向量对应点的【k个最近邻训练实例点】，通过【多数表决】来预测输入实例点的类别

2）【回归原理】
给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 k 个实例，这 k 个实例的平均值，就是该输入实例的预测值。

2. k-NN 三要素：距离度量 + k值 + 分类决策规则

2.1 距离度量

1）Lp距离：
两向量（特征空间中的两点）的各个维度：差值的绝对值的p次方之和，再开1/p次方

2）曼哈顿距离
Lp距离中，p=1

3）欧氏距离
Lp距离中，p=2

2.2 k值的选择（用交叉验证选择最优的k）

1. k值的选择反映【近似误差】与【估计误差】之间的权衡
【近似误差】：模型估计值与【训练数据集】的误差，即模型能否准确预测训练数据集。

【估计误差】：训练数据集与【测试数据集】的误差，即模型能否准确预测实际数据（测试数据集）。

1）k值较小【模型复杂，容易过拟合】

近似误差（训练集误差）减小： 只有与实力较近的训练数据才会对预测起作用，对训练集效果好
估计误差（测试集误差）增大： 预测结果对近邻的实例点很敏感，若近邻点事噪声，则预测出错
【若k=1，最近邻算法】输出与输入实例点最接近的点的类别

2）k值较大【模型简单，容易欠拟合】

近似误差（训练集误差）增大： 与输入实例点较远的训练实例也会起作用，使预测出错
估计误差（测试集误差）减小： 训练范围增大，减小噪声点的影响
【若k=N】无论输入什么，都无脑输出所有训练实例中数量最多的类别

2.3 分类决策规则——多数表决

等价于【经验风险最小化】——误分类率最小

3. kNN的实现——kd树（二叉树）

kd树：二叉树，对【k维空间】的划分，使每个结点对应于k维空间划分中的一个【超矩形区域】

3.1构造平衡kd树

根节点对应所有实例点（包含整个k维空间），不断对所有坐标分量进行切分，选择所有实例点在该坐标分量上的【中位数】作为切分点，通过切分点并于该坐标轴垂直的超平面进行切分，可以得到【平衡kd树】
————平衡kd树搜索效率【未必最优】

3.2 搜索kd树

在kd树中找到包含目标实例点的叶结点，作为当前最近点
依次往上回退，查找兄弟节点、父节点的兄弟节点、父节点的父节点的兄弟节点…中，是否有更近的点

时间复杂度：O(log N)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

FRENKIE_AIGC CSDN认证博客专家 CSDN认证企业博客

码龄8年

16: 原创

35万+: 周排名

29万+: 总排名

3505: 访问

: 等级

175: 积分

9: 粉丝

9: 获赞

6: 评论

7: 收藏

私信

关注

热门文章

分类专栏

最新评论

【解决循环创建字典时的覆盖问题】浅拷贝copy & 深拷贝deepcopy
CSDN-Ada助手: 恭喜博主发布了第16篇博客！深入浅出地解决了循环创建字典时的覆盖问题，内容精彩又实用。希望博主能继续保持创作的热情和耐心，可以考虑分享一些具体的案例分析或者进阶的技巧，来帮助读者更深入地理解和运用这些知识。期待博主的更多精彩内容！
【Pytorch学习】2.2 基本数据操作
CSDN-Ada助手: 恭喜您写下了第13篇博客！标题为“【Pytorch学习】2.2 基本数据操作”。看到您持续创作的努力，我真感到高兴。您对Pytorch的学习分享让我受益匪浅。如果我可以提供一些建议的话，我希望您能继续深入研究Pytorch的高级数据操作，如数据增强、数据加载等方面，这将为读者提供更多关于Pytorch的实用知识。期待您未来更多精彩的博客！
【Pytorch学习】2.3梯度
CSDN-Ada助手: 恭喜你在PyTorch学习系列中写下了第14篇博客！标题“2.3梯度”听起来非常有深度。看到你持续不断地创作，在这个领域不断学习和分享，实在令人敬佩。作为一名读者，我非常期待你下一篇的博客。希望你能继续深入探索PyTorch的其他方面，并与我们分享你的学习心得。谦虚地说，我相信你一定会给我们带来更多精彩的内容！加油！
【Python】if __name__ == ‘__main__‘:
CSDN-Ada助手: 恭喜您撰写了第15篇博客！标题为“【Python】if __name__ == ‘__main__‘:”。您的博客内容一直都很有深度和实用性，能够帮助读者更好地理解和应用Python编程语言。不过，我建议您在未来的创作中可以更加全面地探讨这个主题，例如探讨在不同情况下如何使用这个语句、它的作用和优势等等。期待您未来更多博客的发布，继续加油！
LeetCode 56. 合并区间
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。