机器学习Python代码实战（二）分类算法：k-最近邻

云夜OVO

已于 2024-06-26 15:40:27 修改

阅读量480

点赞数 10

分类专栏：机器学习文章标签：机器学习 python 分类

于 2024-06-26 15:30:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51502732/article/details/139981163

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一.k-最近邻算法步骤

1.选择适当的k值。它表示在预测新的数据点时要考虑的邻居数量。

2.计算距离。计算未知点与其他所有点之间的距离。常用的距离计算方法主要有欧氏距离，曼哈顿距离等。

3.选择邻居。在训练集中选择与要预测的数据点距离最近的k个邻居。

4.预测响应。统计这k个邻居中各类别的数量，并将要预测的数据点预测为这k个邻居中数量最多的类别。

下面以使用K-最近邻算法预测糖尿病（不需要特征标准化）为例说明k-最近邻算法的使用。

二.导入库和数据集

其中变量的中文含义如下：

Pregnancies:怀孕次数

Glucose:葡萄糖测试值

BloodPressure:血压

SkinThickness:皮肤厚度

Insulin:胰岛素

BMI:身体质量指数

Predigree:糖尿病遗传函数

Age:年龄

Outcome:糖尿病标签（即预测结果)

三.数据清洗

可以看到在上一步中某些列均出现了异常值0，此时需要进行数据清洗把异常值先替换为NaN，然后用该列的平均值填充。

四.划分测试集和训练集

先获取x，y如下。

然后进行训练集和测试集的划分，依旧是训练集占80%，测试集占20%。打印x的测试集如下。

五.模型训练

由于本数据集的自变量之间的数量级差别不是很大，故不需要使用特征标准化。

先导入k-最近邻分类器,再开始在训练集上训练模型

六.预测结果并输出混淆矩阵

混淆矩阵可视化如下：

采用准确率（Accurancy），精确率（precision），召回率（Recall），F1分数（F1 score）来评估模型。

模型的准确率、精确率、召回率和 F1 分数都在 50% 到 70% 之间，说明模型有一定的预测能力，但效果并不是特别好。

因此，我们尝试改进模型。

七.尝试优化

试着采用改变K值的方法。

把k值设置为6，运行。得到混淆矩阵如下。

可视化如下：

接下来计算指标值。

模型的准确率、精确率、召回率和 F1 分数都在 50% 到 80% 之间，说明模型有较好的预测能力，但仍有改进空间。

至于后续的优化，可能就需要继续调整k值或者采用其他的分类算法了，在这里不做过多讨论。

欢迎各位大佬批评指正，别忘了点赞加关注喔~

关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
机器学习Python代码实战（二）分类算法：k-最近邻

采用准确率（Accurancy），精确率（precision），召回率（Recall），F1分数（F1 score）来评估模型。模型的准确率、精确率、召回率和 F1 分数都在 50% 到 70% 之间，说明模型有一定的预测能力，但效果并不是特别好。模型的准确率、精确率、召回率和 F1 分数都在 50% 到 80% 之间，说明模型有较好的预测能力，但仍有改进空间。统计这k个邻居中各类别的数量，并将要预测的数据点预测为这k个邻居中数量最多的类别。在训练集中选择与要预测的数据点距离最近的k个邻居。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。