基于sklearn进行蝴蝶花分类案例（Python机器学习笔记）

最新推荐文章于 2025-03-11 00:20:16 发布

烤鲅鱼

最新推荐文章于 2025-03-11 00:20:16 发布

阅读量1k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_34674558/article/details/122473724

版权

本文通过鸢尾花数据集复习Python机器学习，介绍数据集背景、内容，包括花萼长度、宽度等四个属性。进行了数据检查、数据整理，如处理孤立点和缺失值，为分类做好准备。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文背景

原有在网易云课堂学习课程Python机器学习简介，只不过好久没看。现想回顾一下，巩固所学内容。

数据集简介

Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。
iris以鸢尾花的特征作为数据来源，常用在分类操作中。该数据集由3种不同类型的鸢尾花的各50个样本数据构成。其中的一个种类与另外两个种类是线性可分离的，后两个种类是非线性可分离的。
该数据集包含了4个属性：
Sepal.Length（花萼长度），单位是cm;
Sepal.Width（花萼宽度），单位是cm;
Petal.Length（花瓣长度），单位是cm;
Petal.Width（花瓣宽度），单位是cm;
种类：
Iris Setosa（山鸢尾）、Iris Versicolour（杂色鸢尾），以及Iris Virginica（维吉尼亚鸢尾）。

数据检查

忽略报错

import warnings
warnings.filterwarnings("ignore",category=DeprecationWarning)
warnings.filterwarnings("ignore",category=RuntimeWarning)

数据导入

import pandas as pd
iris_data=pd.read_csv('iris.csv')
iris_data.head()

	sepal_length	sepal_width	petal_length	petal_width	species
0	5.1	3.5	1.4	0.2	setosa
1	4.9	3.0	1.4	0.2	setosa
2	4.7	3.2	1.3	0.2	setosa
3	4.6	3.1	1.5	0.2	setosa
4	5.0	3.6	1.4	0.2	setosa

#判断是否缺失数据

iris_data.isnull().values.any(

最低0.47元/天解锁文章