机器学习之KNN

最新推荐文章于 2023-10-14 15:02:23 发布

语亦情非

最新推荐文章于 2023-10-14 15:02:23 发布

阅读量458

点赞数 1

分类专栏：数据挖掘面试机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1272899331/article/details/104802979

版权

数据挖掘面试同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

25 篇文章 1 订阅

订阅专栏

KNN模型引入

与决策树功能类似，既可以针对离散因变量做分类，又可以对连续因变量做预测，其核心

思想就是比较已知 y 值的样本与未知 y 值样本的相似度，然后寻找最相似的 k 个样本用作未知样

本的预测。

K 最近邻算法，顾名思义就是搜寻最近的 k 个已知类别样本用于未知类别样本的预测。 “ 最

近 ” 的度量就是应用点之间的距离或相似性。距离越小或相似度越高，说明它们之间越近，关

于样本间的远近度量在后面会介绍。 “ 预测 ” ，对于离散型的因变量来说，从 k 个最近的已

知类别样本中挑选出频率最高的类别用于未知样本的判断；对于连续型的因变量来说，则是

将 k 个最近的已知样本均值用作未知样本的预测。

KNN模型步骤

确定未知样本近邻的个数k值。
根据某种度量样本间相似度的指标（如欧氏距离）将每一个未知类别样本的最近k个已
知样本搜寻出来，形成一个个簇。
对搜寻出来的已知样本进行投票，将各簇下类别最多的分类用作未知样本点的预测。

最佳k值选择

1、是设置 k 近邻样本的投票权重，假设读

者在使用 KNN 算法进行分类或预测时设置的 k 值比较大，担心模型发生欠拟合的现象，一个简

单有效的处理办法就是设置近邻样本的投票权重，如果已知样本距离未知样本比较远，则对

应的权重就设置得低一些，否则权重就高一些，通常可以将权重设置为距离的倒数；

2、另一种是

采用多重交叉验证法，该方法是目前比较流行的方案，其核心就是将 k 取不同的值，然后在每

种值下执行 m 重的交叉验证，最后选出平均误差最小的 k 值。当然，还可以将两种方法的优点相

结合，选出理想的 k 值

相似度的度量方法

欧式距离

曼哈顿距离

余弦相似度

杰卡德相似系数

近邻样本的搜寻方法

1，暴力搜寻法

针对某未知样本，计算它与所以已知样本之间的距离，然后从中挑选出最近的k个样本，再基于这k个样本进行投票，将票数最多的类别作为预测结果

2，k-d树搜寻法

3，球形搜寻法

参数

最重要的两个参数：n_neighbors 和 weights

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。