K最近邻算法——近朱者赤，近墨者黑

最新推荐文章于 2024-06-17 17:35:06 发布

nyuyy

最新推荐文章于 2024-06-17 17:35:06 发布

阅读量67

点赞数 1

文章标签：机器学习近邻算法 python 人工智能 scikit-learn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/syz202614/article/details/134296040

版权

K最近邻算法的原理正如标题所说——近朱者赤近墨者黑，我们数据集一半是朱(下图浅色点)，一般是墨(下图深色点)。

现在有个一个新的数据点，我们如何判断它属于那一类呢？对于K最邻近算法来说，新数据点离谁近，就和谁属于同一类

如上图所示，我们选的最邻近数为1，但是我们如果在训练模型过程中让最近邻数等于1的话，那么就很可能犯一叶障目不见泰山的错误，万一新数据点最近的数据恰好是个测试错误点呢？所以我们要增加最近邻的数量，例如把最近邻数增加到3，然后让新数据点的分类和3个当中最多的数据点所处的分类一致，如下图所示

当我们令新数据点的最近邻数为3时，在于新数据点最近的三个点中，有两个是深色，一个是浅色，这样一来，K最近邻算法把新数据点放到深色的分类中。

在scikit-learn中，内置了若干玩具数据集(Toy Datasets),还有一些API让我们展示。

在这段代码中，我们用scikit-learn的make_blobs函数生成一个样本数量为200，分类为2的数据集，并将其复制给x,y,然后我们用matplotlib讲数据用图形表示出来，如下图所示

make_blods生成的数据集一共有两类，其中一类用深色表示，另一类用浅色表示。我们这里生成的数据集，可以看作为机器学习的训练数据集，是已知数据，我们基于这些数据用算法进行模型训练，然后再对未知数据进行分类和回归。下面我们用K最近邻算法来拟合这些数据，输入代码如下

运行结果为

从中我们可以看出，K最近邻算法基于数据集创建了一个分类模型，就是图中粉色区域和灰色区域组成部分，如果有新数据输入的话，模型就会自动讲新数据分到对应分类中。

假设有一个新数据点，它的两个特征值分别是6.75和4.82，我们来测试一下模型能不能讲它放到正确的分类中，输入一下代码

得到图形

图中五角星就代表了新数据点所在位置，可以看出K最近邻算法将它放在了下方区域，和浅色数据归为一类。我们再验证一下，输入代码

可以看出，K最近邻算法工作成果还是很不错的。

下面我们用K最近邻算法处理多元分类任务

接下来，为让任务难度加大，我们修改make_blods的centers参数，把数据类型增加到5个，同时修改n_samlpes参数，把样本量也增加到500个，输入代码

得到结果

我们再次用K最近邻算法建立模型拟合这些数据

得到结果

从中可以看出，K最近邻算法仍然把大部分数据点置于正确分类，小部分进入了错误分类，这些错误分类的数据点基本都是相互重合的位于图像中心位置的点。为了查看模型正确率我们运行一下代码

可以看出，这个结果是相当不错的。

明天我会接着使用K最近邻算法来进行回归分析

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
K最近邻算法——近朱者赤，近墨者黑

如上图所示，我们选的最邻近数为1，但是我们如果在训练模型过程中让最近邻数等于1的话，那么就很可能犯一叶障目不见泰山的错误，万一新数据点最近的数据恰好是个测试错误点呢？我们这里生成的数据集，可以看作为机器学习的训练数据集，是已知数据，我们基于这些数据用算法进行模型训练，然后再对未知数据进行分类和回归。当我们令新数据点的最近邻数为3时，在于新数据点最近的三个点中，有两个是深色，一个是浅色，这样一来，K最近邻算法把新数据点放到深色的分类中。对于K最邻近算法来说，新数据点离谁近，就和谁属于同一类。
复制链接

扫一扫

nyuyy CSDN认证博客专家 CSDN认证企业博客

码龄1年

4: 原创

200万+: 周排名

26万+: 总排名

759: 访问

: 等级

43: 积分

0: 粉丝

3: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

最新评论

K最近邻案例实战之手写数字识别模型
CSDN-Ada助手: 恭喜您写了第四篇博客！标题看起来非常有趣，我对您的K最近邻案例实战之手写数字识别模型非常期待。您的持续创作令人钦佩，我希望您可以继续分享更多关于机器学习的实战案例。对于下一步的创作建议，我谦虚地建议您可以考虑探索其他机器学习算法，如决策树、支持向量机等等，这样可以让读者们更全面地了解不同的模型和它们的应用场景。再次恭喜您，并期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
K最近邻算法用于回归分析
CSDN-Ada助手: 恭喜作者在博客中分享了K最近邻算法用于回归分析的内容，这对于我们学习和应用算法都有很大的帮助。希望作者能够继续坚持创作，分享更多有价值的知识和经验。在下一篇博客中，可以尝试结合实际案例或者应用场景，更加直观地展示算法的运用过程，这将会使读者受益匪浅。期待作者的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
K最近邻算法——近朱者赤，近墨者黑
CSDN-Ada助手: 这篇博客写得非常棒！你对K最近邻算法的解释很清晰，标题也非常吸引人。我鼓励你继续创作，分享更多关于机器学习的知识。除了K最近邻算法，你还可以继续探讨一些相关的扩展知识和技能。例如，你可以介绍一下交叉验证的方法，用于评估模型的性能。你还可以讨论一下特征选择的重要性，并介绍一些常用的特征选择方法。另外，你也可以深入研究一下K最近邻算法的性能优化方法，例如使用KD树来加速最近邻搜索。希望我的建议对你有所帮助，期待看到你更多精彩的博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
【无标题】数据挖掘与机器学习，数据挖掘的六大任务
CSDN-Ada助手: 恭喜你开始博客创作！你的标题“【无标题】数据挖掘与机器学习，数据挖掘的六大任务”很引人注目，很高兴看到你对数据挖掘和机器学习有如此浓厚的兴趣。在你的博客中，你提到了数据挖掘的六大任务，这是一个很好的起点，让读者能够了解到数据挖掘的基本概念。接下来，我建议你可以进一步探索每个任务的细节，并给出实际案例或者应用场景来加深读者的理解。同时，你可以介绍一些常用的数据挖掘和机器学习算法，以及它们在不同任务中的应用。这样，读者可以更好地了解数据挖掘和机器学习的实际运用，并能够通过你的博客获取实用的知识。再次恭喜你的第一篇博客！期待看到你在未来的创作中不断进步，为读者带来更多有价值的内容。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
【无标题】数据挖掘与机器学习，数据挖掘的六大任务
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617523809。

大家在看

python基础语法

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。