python分析鸢尾花数据_鸢尾花(iris)数据集分析

本文使用Python对鸢尾花数据集进行探索性分析,通过 violinplot 和 pointplot 观察各特征与品种关系,并利用多种机器学习模型(SVM、Logistic Regression、Decision Tree、KNN)进行预测,发现花瓣特征对预测准确性影响较大。
摘要由CSDN通过智能技术生成

Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。

据说在现实中,这三种花的基本判别依据其实是种子(因为花瓣非常容易枯萎)。

0 准备数据

下面对 iris 进行探索性分析,首先导入相关包和数据集:

# 导入相关包

import numpy as np

import pandas as pd

from pandas import plotting

%matplotlib inline

import matplotlib.pyplot as plt

plt.style.use('seaborn')

import seaborn as sns

sns.set_style("whitegrid")

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import LabelEncoder

from sklearn.neighbors import KNeighborsClassifier

from sklearn import svm

from sklearn import metrics

from sklearn.tree import DecisionTreeClassifier

# 导入数据集

iris = pd.read_csv('F:\pydata\dataset\kaggle\iris.csv', usecols=[1, 2, 3, 4, 5])

查看数据集信息:

iris.info()

RangeIndex: 150 entries, 0 to 149

Data columns (total 5 columns):

SepalLengthCm 150 non-null float64

SepalWidthCm 150 non-null float64

PetalLengthCm 150 non-null float64

PetalWidthCm 150 non-null float64

Species 150 non-null object

dtypes: float64(4), object(1)

memory usage: 5.9+ KB

查看数据集的头 5 条记录:

iris.head()

52b86c774b0b

1 探索性分析

先查看数据集各特征列的摘要统计信息:

iris.describe()

52b86c774b0b

通过Violinplot 和 Pointplot,分别从数据分布和斜率,观察各特征与品种之间的关系:

# 设置颜色主题

antV = ['#1890FF', '#2FC25B', '#FACC14', '#223273', '#8543E0', '#13C2C2', '#3436c7', '#F04864']

# 绘制 Violinplot

f, axes = plt.subplots(2, 2, figsize=(8, 8), sharex=True)

s

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值