机器学习：KNN算法笔记

最新推荐文章于 2024-07-24 14:31:04 发布

Ningbo_JiaYT

最新推荐文章于 2024-07-24 14:31:04 发布

阅读量397

点赞数 8

分类专栏：机器学习文章标签：机器学习算法笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ningbo_JiaYT/article/details/136622398

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

K-近邻法（K-Nearest Neighbors，KNN）是一种简单的分类和回归方法，它属于有监督的学习算法，亦是一种惰性学习或基于实例的学习算法。它的优点是易于实现，模型简单、直观，并且不需要训练，适用于动态数据；缺点是计算量大，特别是当训练样本量很大时，算法效率较低。

惰性学习：指算法直到输入预测数据后，才开始对训练数据集进行处理的学习方式。与之相反的是急切学习，它在训练阶段就已经构建好了具有泛化能力的模型。惰性学习在训练阶段只进行存储数据，而在预测阶段时，才利用存储数据对新的实例进行分类或回归。

基于实例的学习：与惰性学习相似。算法只有在预测时，才利用一些度量相似度的指标来找到与新实例最相似的训练实例，再基于这些训练实例作出预测。

目录

1.1 欧几里得距离（Euclidean distance）

1.2 汉明距离（Hamming distance）

3.分类决策规则

基本原理

一个样本的类别或数值可以由其最近邻的一个或几个样本的类别或数值来预测。

关键要素

1.距离度量

即使用指标度量样本与样本间的相似度。相似度越大，则距离越近。以下是常用的指标：

1.1 欧几里得距离（Euclidean distance）

最常用的距离度量指标之一，用于衡量多维空间中两点之间的直线距离。公式表示如下：

对于已知空间坐标的点 $x = (x_{1}, x_{2}, ..., x_{n} )$ 和点 $y = (y_{1}, y_{2}, ..., y_{n} )$ ，其欧式距离为：

$d(x, y) = \sqrt{(x_{1} - y_{1})^{2} + (x_{2} - y_{2})^{2} + ... +(x_{n} - y_{n})^{2}}$

$= \sqrt{\sum_{i=1}^{n}(x_{i} - y_{i})^{2}}$

其中，n表示n维空间，或n个特征。

1.2 汉明距离（Hamming distance）

在信息论中，衡量两个等长字符串的差异，即统计两个字符串对应位置不同字符的个数，或理解为将一个字符串变换成另外一个字符串所需要替换的字符个数。广泛应用于信息通信的错误检测和纠正、基因序列的相似度分析。

2.K值选择

即选择前K个最相似的样本。K值的选择对算法结果有很大影响。K值过小，模型容易过拟合，受噪声影响较大；K值过大，则可能包含太多其他类别的点，导致模型的预测准确率下降。

3.分类决策规则

在分类问题中，多采用投票法；在回归问题中，多取平均值作为预测结果。当遇到类别不平衡问题时，可以给予不同类别样本不同的权重。

工作步骤

1.特征缩放（包括归一化和标准化等）；

2.计算待分类点与其他所有点之间的距离；

3.基于距离排序样本；

4.选出距离最近的前K个点；

5.决策。

关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习：KNN算法笔记

KNN学习笔记。
复制链接

扫一扫

专栏目录

Ningbo_JiaYT CSDN认证博客专家 CSDN认证企业博客

码龄3年

25: 原创

39万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

636: 积分

498: 粉丝

371: 获赞

12: 评论

346: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习：KNN算法笔记
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
机器学习：ROC曲线笔记
Ningbo_JiaYT: 谢谢，向您学习
机器学习：ROC曲线笔记
白话机器学习: 文章写得专业、深入、详细，收藏啦
机器学习：ROC曲线笔记
CSDN-Ada助手: 恭喜作者撰写了第20篇博客，题目为“机器学习：ROC曲线笔记”。文章内容深入浅出，对ROC曲线进行了详细的解释和分析，让读者受益匪浅。希望作者能够继续坚持创作，可以考虑结合实际案例或者应用场景，更好地帮助读者理解和应用所学知识。期待作者的下一篇精彩博文！
机器学习：数据集划分笔记
CSDN-Ada助手: 恭喜您撰写了第19篇博客！《机器学习：数据集划分笔记》这个主题听起来非常有趣。阅读您的博客让我对数据集划分有了更深入的了解。您的解释清晰明了，让人容易理解，我很喜欢。希望在接下来的博客中，您可以继续分享更多关于机器学习的知识。也许您可以探讨一些实际应用的案例，或是介绍一些新颖的算法或技术，这样能够进一步丰富读者的知识储备。不过，我也明白这些建议只是个人观点，您一定有自己独特的创作计划。期待您未来的博客，谢谢您的分享！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。