KNN（K最邻近分类算法）

咕噜oo

于 2020-07-16 17:17:43 发布

阅读量1.9k

点赞数 2

分类专栏：算法文章标签：算法数据挖掘大数据机器学习分类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44081582/article/details/107386917

版权

K最近邻（KNN）是一种经典的懒惰学习分类算法，适用于大数据样本集。其基本原理是通过计算待分类向量与样本集中的向量距离，选取最近的K个邻居进行类别归属判断。KNN算法涉及样本集、相似度度量和K值选择，K值的适当选择对结果准确性至关重要。KNN流程包括数据准备、距离计算和分类。在流数据场景下，S-KNN算法利用Storm实现高效实时分类。

摘要由CSDN通过智能技术生成

K最近邻（KNN，K-NearestNeighbor）分类算法，是比较经典的分类算法，是将数据集合中每一个记录进行分类的方法，属于懒惰性学习算法，只有当需要分类的向量到达时才开始构造泛化模型。是数据挖掘分类技术中最简单的方法之一。

算法中的每个样本都可以用它最接近的K个邻近值来代表。KNN算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

基本原理

在样本集中找出与 待分类向量 tVec 最相似的 k 个向量，然后统计这 k 个向量中出现次数最多的类别，把 tVec 归属为此类。KNN算法主要涉及样本集、相似度的衡量、k 大小3个因素。

样本集也被称为训练集，是带有类别属性的向量集合；
两个向量的相似度一般通过计算它们的欧氏距离或余弦度来衡量；
k 的大小直接影响KNN算法的时空效率，如果 k 取值太小则容易受噪声的影响，k 取值过大，则近邻中可能又包含过多其他类的数据点，因此一般情况下， k 的取值一般不大于样本集的平方根。

KNN算法流程

步骤1 准备并预处理数据

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。