机器学习实战 --- kNN

最新推荐文章于 2024-05-15 10:27:49 发布

leonhoou

最新推荐文章于 2024-05-15 10:27:49 发布

阅读量258

点赞数

分类专栏： MachineLearning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hliyang/article/details/83060247

版权

MachineLearning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

k-近邻算法：

（kNN —— k-Nearest Neighbors）
测量不同特征值之间的距离方法进行分类。
有一个样本数据集（每个样本都存在标签），输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，提取样本集中特征最相似数据（最近邻）的分类标签。一般，只选择样本数据中前k个最相似的数据（k通常不大于20），选择其中分类出现次数最多的作为新数据的分类。

欧式距离公式：

计算两个向量点xA和xB之间的距离：
在这里插入图片描述
举例：如果数据集存在4个特征值，则(1,0,0,1)与(7,6,9,4)之间的距离为：

测试分类器的效果：

在这里插入图片描述

算法使用：

对要约会的人进行分类（不喜欢的人、魅力一般的人、极具魅力的人），
提取数据中的4个样本：
在这里插入图片描述
计算样本3和4的距离：

可以看出数字差值最大的属性对计算结果影响最大，而这种原因是“每年获得的飞行常客里程数”远大于其他特征值。但是这3中特征值是同等重要的，所以“每年获得的飞行常客里程数”不该如此严重影响计算结果。
解决方法：将不同取值范围的特征值进行归一化，处理到0到1/-1到1
在这里插入图片描述
min和max为数据集中对应特征的最小和最大值。

通常使用数据的90%作为训练样本来训练分类器，其余的10%来测试分类器，这是最原始的做法，还有其他一些高级方法。注意：10%的数据是随机选择的。

算法特点：

k-近邻算法是基于实例的学习，使用算法时必须有接近实际数据的训练样本数据，同时又必须对数据集中的每个数据计算距离值，所以十分耗时。

代码案例：

kNN算法应用实例（1、2）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战 --- kNN

k-近邻算法：（kNN —— k-Nearest Neighbors）测量不同特征值之间的距离方法进行分类。有一个样本数据集（每个样本都存在标签），输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，提取样本集中特征最相似数据（最近邻）的分类标签。一般，只选择样本数据中前k个最相似的数据（k通常不大于20），选择其中分类出现次数最多的作为新数据的分类。欧式距离公式：...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。