k-近临算法及代码实现

最新推荐文章于 2024-05-23 08:59:26 发布

努力是一种幸运

最新推荐文章于 2024-05-23 08:59:26 发布

阅读量989

点赞数

分类专栏：机器学习算法文章标签：分类算法 KNN 数据分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/American199062/article/details/51471542

版权

机器学习算法专栏收录该内容

14 篇文章 3 订阅

订阅专栏

k-近临算法（KNN）采用测量不同特征值之间的距离方法进行分类。k-近邻算法优点是精度高、对异常值不敏感、无数据输入假定，缺点是计算复杂度高、空间复杂度高，适用数据范围为数值型和标称型。

k-近邻算法的工作原理：存在一个样本数据集合（训练样本集），并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较。然后算法提取样本集中特征最相似数据（最近邻）的分类标签，一般，我们只选择样本数据集中前k个最相似的数据。选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

“近邻性”用距离度量，如欧式距离。

k-近邻算法计算过程

（1）在算式之前，需要把每个属性的值规范化，这有助于防止具有较大初始值域的属性（如收入）比具有较小初始值域的属性（如二元属性）的权重过大。

（2）对于某未知元组进行分类，找出离它最近的k个点。k一般为奇数是为了更好的比较，作出判别，比如(k=5, 3:2)

（3）属于哪一个类的多，就把这个待判别点（未知元组）判别为哪一类。

另外， KNN也可以用于数值预测，即返回给定未知元组的实数值预测。在这种情况下，分类器返回未知元组的K个最近邻的实数值标号的平均值。

如果属性不是数值而是标称的（或类别的）如颜色，如何计算距离？一种简单的方法是比较元组X1和X2中对应属性的值。如果两者相同（元组X1、X2均为蓝色），则二者之间的差为0，如果二者不同，则差为1。

KNN使用基于距离的比较，本质上赋予每个属性相等的权重。当数据存在噪声或不相关属性时，准确率可能受到影响。然而，结合属性加权和噪声数据元组的剪枝。

努力是一种幸运

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
k-近临算法及代码实现

K-最近邻分类（惰性学习法），即KNN。惰性学习法在提供训练元组时只做少量工作，而在进行分类或数值预测时做更多的工作。惰性学习法不提供多少解释或对数据结构的洞察。但是，惰性学习法天生地支持增量学习。惰性学习法的计算开销可能相当大。“近邻性”用距离度量，如欧式距离。在算式之前，需要把每个属性的值规范化，这有助于防止具有较大初始值域的属性（如收入）比具有较小初始值域的属性（
复制链接

扫一扫

专栏目录

努力是一种幸运

博客等级

码龄12年

49
原创

67
点赞

164
收藏

45
粉丝

关注

私信

热门文章

分类专栏

最新评论

支持向量机SVM推导及求解过程
weixin_67207019: 建立目标函数，总可以通过等比例缩放w的方法，使得两类点的函数值都满足y绝对值大于等于1这句话怎么理解，卡这了
Python——可执行的伪代码
寒月星辰: 你在搞笑吗？任何一门编程语言，在不懂的人看来都是天书，这点Python怎么可能例外，在懂得人眼里，java也好python也罢看代码就跟玩似的，c语言也没那么吃力
在ubuntu上安装百度云的方法与步骤
旗晟机器人: genbenbuxing
经典提升算法——Adaboost
_23__: 写的不错，我在您的基础上有补充，有助于理解多分类和二分类。 https://blog.csdn.net/qq_40514904/article/details/103394466
经典提升算法——Adaboost
yellingf: adaboost容易出现过拟合现象？？？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。