KNN算法实现鸢尾花数据集分类

最新推荐文章于 2023-10-09 22:27:11 发布

Elf.苏洛曦

最新推荐文章于 2023-10-09 22:27:11 发布

阅读量3.4w

点赞数 44

分类专栏： python 机器学习文章标签： python knn k-近邻机器学习入门算法

本文链接：https://blog.csdn.net/qq_42302831/article/details/102553007

版权

本文介绍了KNN算法的基本概念，通过鸢尾花数据集详细阐述了算法的实现过程，包括数据加载、模型训练与预测，并分享了两种不同的实现方法。同时，文章提到了在实践中遇到的问题及解决方案，提供了相关学习资源。

摘要由CSDN通过智能技术生成

KNN算法实现鸢尾花数据集分类

一、knn算法描述
1.基本概述
knn算法，又叫k-近邻算法。属于一个分类算法，主要思想如下：
一个样本在特征空间中的k个最近邻的样本中的大多数都属于某一个类别，则该样本也属于这个类别。其中k表示最近邻居的个数。

用二维的图例，说明knn算法，如下：
在这里插入图片描述
二维空间下数据之间的距离计算：

在n维空间两个数据之间:
2.具体步骤：
（1）计算待测试数据与各训练数据的距离
（2）将计算的距离进行由小到大排序
（3）找出距离最小的k个值
（4）计算找出的值中每个类别的频次
（5）返回频次最高的类别

二、鸢尾花数据集
Iris 鸢尾花数据集内包含 3 类分别为山鸢尾（Iris-setosa）、变色鸢尾（Iris-versicolor）和维吉尼亚鸢尾（Iris-virginica），共 150 条记录，每类各 50 个数据，每条记录都有 4 项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，可以通过这4个特征预测鸢尾花卉属于哪一品种。
iris数据集包含在sklearn库当中，具体在sklearn\datasets\data文件夹下，文件名为iris.csv。以本机为例。其路径如下：
D:\python\lib\site-packages\sklearn\datasets\data\iris.csv
其中数据如下格式：
在这里插入图片描述
第一行数据意义如下：
150：数据集中数据的总条数
4：特征值的类别数，即花萼长度、花萼宽度、花瓣长度、花瓣宽度。
setosa、versicolor、virginica：三种鸢尾花名

从第二行开始：
第一列为花萼长度值
第二列为花萼宽度值
第三列为花瓣长度值
第四列为花瓣宽度值
第五列对应是种类（三类鸢尾花分别用0，1，2表示）
三、算法实现
1.算法流程图：
在这里插入图片描述
从以上流程图可以看出，knn算法包含后四步操作，所以将整个程序分为三个模块。

2.具体实现
（1）方法一
①利用slearn库中的load_iris()导入iris数据集
②使用train_test_split()对数据集进行划分
③KNeighborsClassifier()设置邻居数
④利用fit()构建基于训练集的模型
⑤使用predict()进行预测
⑥使用score()进行模型评估
说明：本代码来源于《Python机器学习基础教程》在此仅供学习使用。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import numpy as np

# 载入数据集
iris_dataset = load_iris()

# 数据划分
X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], random_state=0)

# 设置邻居数
knn = KNeighborsClassifier(n_neighbors=1)

# 构建基于训练集的模型
knn.fit(X_train, y_train)


# 一条测试数据
X_new = np.array([[5, 2.9, 1, 0.2]])

# 对X_new预测结果
prediction = knn.predict(X_new)
print("预测值%d" % prediction)

# 得出测试集X_test测试集的分数
print

最低0.47元/天解锁文章

Elf.苏洛曦

关注

44
点赞
踩
381

收藏

觉得还不错? 一键收藏
19
评论
KNN算法实现鸢尾花数据集分类

KNN算法实现鸢尾花数据集分类一、knn算法描述1.基本概述knn算法，又叫k-近邻算法。属于一个分类算法，主要思想如下：一个样本在特征空间中的k个最近邻的样本中的大多数都属于某一个类别，则该样本也属于这个类别。其中k表示最近邻居的个数。用二维的图例，说明knn算法，如下：二维空间下数据之间的距离计算：在n维空间两个数据之间:2.具体步骤：（1）计算待测试数据与各训练数据的距...
复制链接

扫一扫