K-近邻算法通俗理解与实践

最新推荐文章于 2024-06-11 23:16:33 发布

大数据技术派

最新推荐文章于 2024-06-11 23:16:33 发布

阅读量714

点赞数

本文链接：https://blog.csdn.net/ddxygq/article/details/102597687

版权

640?wx_fmt=jpeg

近朱者赤，近墨者黑，是有一定道理的。我们为人处世的潜意识，通常告诉我们，一个人与众多成功者（比如马云）在一起，谈笑风生、指点江山，我们会认为，这个人很可能是个成功者；如果一个人在跟北海道大街上成天跟几个混混厮混一起，招摇过市，欺男霸女，我们通常认为，这个人很差劲！

K-近邻算法就是这样的一种算法。具体是，通过寻找测试对象Obj最近的K个样本对象，假设K=4，经过计算，与Obj最近的4个对象集合所属类别为，K_Set=[A, B, B, B]，A：1次，B：3次，我们判定Obj测试对象属于类别B。

KNN 属于有监督的分类算法，也就是说，KNN 是通过有标签的样本集进行训练，并通过样本集数据对测试对象进行分类的算法。

KNN 的原理也很简单，通过选取样本集中 K 个离测试对象最近的样本，然后根据这 K 个样本的类型对测试对象进行分类。这也是算法名称中 K 的来历。

通过算法的原理我们也可以了解到，实现 KNN 算法的关键在于：样本集、距离的计算、K 值的选取。

计算距离通常可以使用距离平方和

640?wx_fmt=svg

或者欧几里得距离

640?wx_fmt=svg

曼哈顿距离计算公式

640?wx_fmt=svg

这里使用欧几里得距离。

K-近邻特点分为优点与缺点：

优点：

缺点：

K-近邻算法实现很简单：

Python代码

结果

距离 ->  [0.31622777 1.36014705 0.1        0.36055513 0.2236068  1.30384048
 1.04403065]
距离排序下标 -> [2 4 0 3 6 5 1]
结果 -> [('A', 2), ('B', 1)] A

代码中约定：蓝色：A类，红色：B类，绿色：待分类对象。

640?wx_fmt=jpeg

结果：

('A', 2), ('B', 1)，待预测对象属于A类。

猜你可能喜欢

640?wx_fmt=jpeg

关注