KNN算法--实现鸢尾花分类

最新推荐文章于 2024-07-21 13:38:21 发布

种豆北山下

最新推荐文章于 2024-07-21 13:38:21 发布

阅读量113

点赞数

文章标签：算法分类数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qingjj__/article/details/133689427

版权

【机器学习】KNN算法实现鸢尾花分类

目录

【机器学习】KNN算法实现鸢尾花分类

（1）引入相关的包

（2）加载数据

（3）对训练集和测试集进行划分

（4）模型训练

（5）模型预测

（6）模型评估

1.概述

KNN算法（K-NearestNeighbor）是机器学习领域的基础算法之一，常被用做分类问题与回归问题。

2.算法核心

KNN算法的原理可以总结为"近朱者赤近墨者黑"，通过数据之间的相似度进行分类。具体来说，通过计算测试数据和已知数据之间的距离来进行分类。

测试数据的预测结果取决于已知数据和测试数据的距离以及人为设置的k值。如图所示，假设k设置为3，由于测试数据最相近的3个已知数据有2个红色，1个蓝色，则预测结果为红色；假设k设置为5，由于测试数据最相近的5个已知数据又3个蓝色，2个红色，则预测结果为蓝色。

2.1 算法实例

（1）引入相关的包

from sklearn.datasets import load_iris //加载数据集

from sklearn.model_selection import train_test_split //引用一个做模型划分的包

from sklearn.neighbors import KNeighborsClassifier //引入KNN算法的一个包

import numpy as np

（2）加载数据

data=load_iris()

X=data['data'] //特征

Y=data['target'] //类别

（3）对训练集和测试集进行划分

X_train:训练集的特征

Y_train:训练集的分类

X_test:测试集的特征

Y_test:测试集的分类

接下来用到train_test_split模型，输入两个参数，test_size表示最终测试集的数量150*0.2=30个，即会拿120个数据去做训练，剩下的30个数据做测试；random_state指随机数的种子，0表示每次都会得到不一样的随机数

X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.2,random_state=0)

（4）模型训练

model是KNN的算法，输入的参数n_neighbors=3表示k=3，然后使用model.fit()方法来执行训练过程

model=KNeighborsClassifier(n_neighbors=3)

model.fit(X_train,Y_train)

（5）模型预测

将X_test作为输入输进去，Y_pred表示得到的30个数据的数组，eg第0个数据属于第一种类别，第1个数据属于第二种类别等

Y_pred=model.predict(X_test)

（6）模型评估

思路：如果Y_pred和实际的模型是一致的，就认为是个正确的预测

将Y_pred和Y_test作比较，就得到正确的个数correct_pred，将其与总测试个数30个相除，就得等到该模型的正确率accuracy

correct_pred=np.count_nonzero(Y_pred==Y_test)

accuracy=correct_pred/len(Y_test)

print("model accuracy is "+str(accuracy))

运行结果

3.谈论

KNN中的一个重要问题就是K值如何选取？这个问题是仁者见仁，智者见智。毕竟，这种问题逃不过多次尝试。但是，我们必须明确不同的K值对结果有不同的影响，不能简单的认为K值越大越好或越小越好。

4.总结

KNN算法的优点：

1. 思想简单，简洁明了
2. 对异常值不敏感
3. 输入数据限制小
4. 精度高

KNN算法的缺点：

1. 计算复杂度高
2. 预测速度缓慢
3. 受数据规模影响敏感

种豆北山下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
KNN算法--实现鸢尾花分类

适合新手的knn算法实例
复制链接

扫一扫

种豆北山下 CSDN认证博客专家 CSDN认证企业博客

码龄3年

8: 原创

130万+: 周排名

20万+: 总排名

6660: 访问

: 等级

140: 积分

48: 粉丝

56: 获赞

8: 评论

88: 收藏

私信

关注

热门文章

最新评论

机器学习——PCA的应用
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
机器学习——PCA的应用
小梁说代码: 受益了，支持博主！
机器学习——支持向量机
CSDN-Ada助手: “恭喜您在机器学习领域又一次分享了宝贵的知识，支持向量机是一个非常有趣和复杂的主题，您的博客对于初学者来说非常有帮助。希望您能继续分享更多关于机器学习的内容，也许可以考虑将一些实际案例和应用场景加入进来，这样能够更好地帮助读者理解和应用所学知识。期待您的下一篇博客！”
机器学习---逻辑斯蒂回归（logistic regression）
CSDN-Ada助手: 非常棒的博客！恭喜你写了第6篇关于逻辑斯蒂回归的文章。你的解释非常清晰，让人容易理解这个概念。希望你能继续保持创作的热情，继续分享你的知识和见解。在下一篇博客中，或许可以考虑探讨一下逻辑斯蒂回归在实际应用中的案例研究，这样读者可以更好地理解其实际应用的价值。期待你的下一篇作品！
机器学习——垃圾邮件分类
CSDN-Ada助手: 非常感谢作者分享关于垃圾邮件分类的博客，这是一个非常有趣和实用的话题。祝贺你能够持续创作，并且希望你能够继续深入探讨机器学习在垃圾邮件分类中的应用，或者可以考虑分享一些实际案例或者应用场景。期待你的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。