KNN算法实现鸢尾花数据集分类

本文介绍了KNN算法的基本概念,通过鸢尾花数据集详细阐述了算法的实现过程,包括数据加载、模型训练与预测,并分享了两种不同的实现方法。同时,文章提到了在实践中遇到的问题及解决方案,提供了相关学习资源。
摘要由CSDN通过智能技术生成

KNN算法实现鸢尾花数据集分类

一、knn算法描述
1.基本概述
knn算法,又叫k-近邻算法。属于一个分类算法,主要思想如下:
一个样本在特征空间中的k个最近邻的样本中的大多数都属于某一个类别,则该样本也属于这个类别。其中k表示最近邻居的个数。

用二维的图例,说明knn算法,如下:
在这里插入图片描述
二维空间下数据之间的距离计算:
在这里插入图片描述
在n维空间两个数据之间:在这里插入图片描述
2.具体步骤:
(1)计算待测试数据与各训练数据的距离
(2)将计算的距离进行由小到大排序
(3)找出距离最小的k个值
(4)计算找出的值中每个类别的频次
(5)返回频次最高的类别

二、鸢尾花数据集
  Iris 鸢尾花数据集内包含 3 类分别为山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica),共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于哪一品种。
iris数据集包含在sklearn库当中,具体在sklearn\datasets\data文件夹下,文件名为iris.csv。以本机为例。其路径如下:
D:\python\lib\site-packages\sklearn\datasets\data\iris.csv
其中数据如下格式:
在这里插入图片描述
第一行数据意义如下:
150:数据集中数据的总条数
4:特征值的类别数,即花萼长度、花萼宽度、花瓣长度、花瓣宽度。
setosa、versicolor、virginica:三种鸢尾花名

从第二行开始:
第一列为花萼长度值
第二列为花萼宽度值
第三列为花瓣长度值
第四列为花瓣宽度值
第五列对应是种类(三类鸢尾花分别用0,1,2表示)
三、算法实现
1.算法流程图:
在这里插入图片描述
从以上流程图可以看出,knn算法包含后四步操作,所以将整个程序分为三个模块。

2.具体实现
(1)方法一
①利用slearn库中的load_iris()导入iris数据集
②使用train_test_split()对数据集进行划分
③KNeighborsClassifier()设置邻居数
④利用fit()构建基于训练集的模型
⑤使用predict()进行预测
⑥使用score()进行模型评估
说明:本代码来源于《Python机器学习基础教程》在此仅供学习使用。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import numpy as np

# 载入数据集
iris_dataset = load_iris()

# 数据划分
X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], random_state=0)

# 设置邻居数
knn = KNeighborsClassifier(n_neighbors=1)

# 构建基于训练集的模型
knn.fit(X_train, y_train)


# 一条测试数据
X_new = np.array([[5, 2.9, 1, 0.2]])

# 对X_new预测结果
prediction = knn.predict(X_new)
print("预测值%d" % prediction)

# 得出测试集X_test测试集的分数
print
  • 44
    点赞
  • 381
    收藏
    觉得还不错? 一键收藏
  • 19
    评论
KNN算法是一种基于实例的学习方法,它的基本思想是通过测量不同特征值之间的距离进行分类。对于鸢尾花数据集,我们可以使用KNN算法来对花的种类进行分类。以下是KNN算法实现鸢尾花数据分类的步骤: 1. 加载数据集:我们可以使用Python的scikit-learn库中的load_iris()函数来加载鸢尾花数据集。 2. 数据预处理:我们需要对数据进行预处理,将数据集分成训练集和测试集。 3. 特征标准化:特征标准化可以提高算法的准确性。我们可以使用scikit-learn库中的StandardScaler类来进行特征标准化。 4. 训练模型:我们可以使用scikit-learn库中的KNeighborsClassifier类来训练KNN分类模型。在训练模型时,我们需要设置K值。 5. 预测结果:我们可以使用训练好的模型对测试集进行预测,并计算预测准确率。 以下是一个简单的Python代码示例,实现KNN算法鸢尾花数据集分类: ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier # 加载数据集 iris = load_iris() # 数据预处理 X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3) # 特征标准化 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) # 训练模型 k = 5 knn = KNeighborsClassifier(n_neighbors=k) knn.fit(X_train, y_train) # 预测结果 y_pred = knn.predict(X_test) # 计算准确率 accuracy = sum(y_pred == y_test)/len(y_test) print("KNN算法鸢尾花数据集分类准确率为:", accuracy) ``` 在上述代码中,我们设置K=5,即选择距离测试样本最近的5个训练样本来进行预测。最后,我们计算模型的准确率,得到KNN算法鸢尾花数据集分类准确率。
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值