[Python] 机器学习 - 常用数据集(Dataset)之鸢尾花(Iris)数据集介绍,数据可视化和使用案例

鸢(yuān)尾花(Iris)数据集介绍

鸢【音:yuān】尾花(Iris)是单子叶百合目花卉,是一种比较常见的花,而且鸢尾花的品种较多,在某个公园里你可能不经意间就能碰见它。

鸢尾花数据集最初由Edgar Anderson 测量得到,而后在著名的统计学家和生物学家R.A Fisher于1936年发表的文章「The use of multiple measurements in taxonomic problems」中被使用,用它作为线性判别分析(Linear Discriminant Analysis)的一个例子,证明分类的统计方法。该数据集是在机器学习领域一个常用的数据集。

数据中的两类鸢尾花记录结果是在加拿大加斯帕半岛上,在同一天的同一个时间段,使用相同的测量仪器,在相同的牧场上由同一个人测量出来的。这是一份有着70年历史的数据,虽然老,但是却很经典,详细数据集可以在UCI 数据库(http://archive.ics.uci.edu/ml/datasets/Iris) 中找到。

http://archive.ics.uci.edu/static/public/53/iris.zip

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),Virginica(维吉尼亚鸢尾))三个种类中的哪一类。

鸢尾花(iris)数据集,它共有4个属性列和一个品种类别列:sepal length(萼片长度)、sepal width(萼片宽度)、petal length(花瓣长度)、petal width (花瓣宽度),单位都是厘米。3个品种类别是Setosa、Versicolour、Virginica,样本数量150个,每类50个。

本文主要通过Jupyter Notebook对鸢尾花数据集(Iris)进行读取,显示数据,并对数据可视化,最后使用该数据集来应用于K近邻算法线性回归分析。

1)读取数据包括scikit-learn库引入和读取.csv文件保存的数据集。

2)显示数据包括显示具体数据、查看整体数据信息、描述性统计。

3)数据可视化包括散点图、直方图、KDE图、箱线图等。

4)应用该数据集于scikit-learn的K近邻算法进行线性回归分析。

读取数据

from sklearn import datasets
import pandas as pd
 
iris_datas = datasets.load_iris()

iris_df = pd.DataFrame(iris_datas.data, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width'])

# 它是一个很小的数据集,仅有150行,5列。该数据集的四个特征(1~4)列属性的取值都是数值型的,
# 他们具有相同的量纲,不需要你做任何标准化的处理,
# 第五列为通过前面四列所确定的鸢尾花所属的类别名称。
iris_csv_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"  
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class'] 
iris_csv_df = pd.read_csv(iris_csv_url, names=names)

显示数据

基本数据信息

# 四列数据分别为
# 列1 - Sepal Length Cm: 花萼长度, 单位cm;
# 列2 - Sepal Width Cm: 花萼宽度, 单位cm;
# 列3 - Petal Length Cm: 花瓣长度, 单位cm
# 列4 - Petal Width Cm; 花瓣宽度, 单位cm
iris_datas.data[0:10]

iris_df.head()

iris_datas.data.shape
iris_df.shape

# Sepa Length Cm: 花萼长度, 单位cm;
# Sepal Width Cm: 花萼宽度, 单位cm;
# Petal Length Cm: 花瓣长度, 单位cm
# Petal Width Cm; 花瓣宽度, 单位cm
iris_datas.feature_names
iris_datas.target[0:5]
iris_datas.target.shape
iris_datas.target_names

print(iris_datas.DESCR)

iris_csv_df.head()

 

查看数据整体信息

iris_df.info()

查看描述性统计

iris_df.describe()

iris_df.describe().T  

数据可视化

花萼长度与宽度分布 / 花瓣长度与宽度分布(用颜色和形状区分类型)

from collections import Counter, defaultdict
import matplotlib.pyplot as plt
import numpy as np 
plt.rcParams['font.sans-serif'] = ['SimHei']  # 支持中文字体
 
style_lst = ['o', '^', 's']       # 三个分类设置点的不同形状,不同形状默认颜色不同
data = iris_datas.data
labels = iris_datas.target_names
print('labels:', labels)
cls_dict = defaultdict(list)  # 使用默认字典来进行分类,每个分类的数据放到一个单独的列表中
for i, d in enumerate(data):
    cls_dict[labels[int(i/50)]].append(d) # 一共3个种类,每一种类有50个样本集

# print('col_dict:\n', col_dict)
for col in [0, 2]: # 一共4列; 1,2列为一组(花萼的长与宽);3,4列为一组(花瓣的长和宽)
    cls_list = []
    for i, (cls, cls_ds) in enumerate(cls_dict.items()):# 共3个分类
        draw_data = np.array(cls_ds)
        plot = plt.plot(draw_data[:, col], draw_data[:, col+1], style_lst[i])
        cls_list.append(cls)
 
    plt.legend(cls_list)
    plt.title('鸢尾花花瓣的长度和宽度') if col==2 else plt.title('鸢尾花花萼的长度和宽度')
    plt.xlabel('花瓣的长度(cm)') if col==2 else plt.xlabel('花萼的长度(cm)')
    plt.ylabel('花瓣的宽度(cm)') if col==2 else plt.ylabel('花萼的宽度(cm)')
    plt.show()

[Python] 内置类defaultdict(默认字典)介绍和使用场景(案例)-CSDN博客 

 数据直方图

iris_csv_df.hist() #数据直方图histograms

散点图(这里不区分是哪个类型)

x轴表示sepal-length花萼长度,y轴表示sepal-width花萼宽度

iris_csv_df.plot(x='sepal-length', y='sepal-width', kind='scatter')

x轴表示patal-length花瓣长度,y轴表示patal-width花瓣宽度

iris_csv_df.plot(x='petal-length', y='petal-width', kind='scatter')

KDE图

KDE图也被称作密度图(Kernel Density Estimate,核密度估计)。

KDE可以理解为是对直方图的加窗平滑。通过KDE分布图,可以查看并对训练数据集和测试数据集中特征变量的分布情况。[Python] KDE图[作密度图(Kernel Density Estimate,核密度估计)]介绍和使用场景(案例)-CSDN博客

plt.rcParams['axes.unicode_minus'] = False  # 避免 UserWarning: Glyph 8722 (\N{MINUS SIGN}) missing from current font.
iris_csv_df.plot(kind='kde') 

与对应的直方图进行对比一下: 

iris_csv_df.plot(kind='hist') 

箱线图

kind='box’绘制箱图,包含子图且子图的行列布局layout为2*2,子图共用x轴、y轴刻度标签为False。

iris_csv_df.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)

根据iris数据集使用K近邻算法进行线性回归

[Python] scikit-learn - K近邻算法介绍和使用案例-CSDN博客

  • 34
    点赞
  • 89
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 要进行python-鸢尾花数据集iris数据的可视化,首先需要读取数据。我们可以使用pandas库中的read_csv函数来读取csv文件,并将数据存储在一个DataFrame对象中。 ```python import pandas as pd data = pd.read_csv('iris.csv') ``` 读取完数据后,我们可以使用`head()`函数来显示前几行的数据,以便了解数据的结构和内容。 ```python print(data.head()) ``` 下一步,我们可以通过使用`describe()`函数来计算数据的描述性统计信息,例如平均值、标准差、最大值、最小值等。 ```python print(data.describe()) ``` 要绘制散点图,我们可以使用`seaborn`和`matplotlib`库。首先,我们需要安装这两个库,使用`pip`命令: ``` pip install seaborn matplotlib ``` 然后,我们可以使用`seaborn`库中的`scatterplot()`函数来绘制散点图。以下是一个示例代码: ```python import seaborn as sns import matplotlib.pyplot as plt sns.scatterplot(x="sepal_length", y="sepal_width", hue="species", data=data) plt.show() ``` 上述代码会根据鸢尾花数据集中的花瓣长度和花瓣宽度绘制一个散点图,并使用不同的颜色表示不同的鸢尾花种类。 这些是python-鸢尾花数据集iris数据可视化的基本步骤。请根据需要进行相应的修改和扩展。 ### 回答2: Python中有很多数据可视化的库,比如Matplotlib和Seaborn可以帮助我们对数据进行可视化处理。接下来我将展示如何使用Python读取鸢尾花数据集,并进行数据可视化。 首先,我们需要导入相关的库和数据集。 ```python import pandas as pd import seaborn as sns df = sns.load_dataset('iris') ``` 通过以上代码,我们通过Seaborn库的load_dataset函数直接加载了鸢尾花数据集,并将数据存储在一个DataFrame中(命名为df)。 接下来,我们可以使用.head()函数来查看数据的前几行,以确保数据正确加载。 ```python print(df.head()) ``` 然后,我们可以使用.describe()函数来对数据进行描述性统计。 ```python print(df.describe()) ``` 描述性统计能够提供一些基本的统计信息,比如平均值、标准差、最小值、最大值等。 最后,我们可以使用散点图来可视化数据集。 ```python sns.scatterplot(x='sepal_length', y='sepal_width', hue='species', data=df) ``` 以上代码将使用sepal_length作为x轴,sepal_width作为y轴,hue参数将根据鸢尾花的品种来着色,从而区分不同的品种。 以上就是使用Python进行鸢尾花数据集的数据读取、描述性统计和散点图可视化。通过这些步骤,我们能够更好地了解数据集,发现数据的分布和关系,从而对数据进行更进一步的分析或者挖掘。 ### 回答3: 鸢尾花数据集机器学习和数据分析中常用的一个数据集,由英国统计学家罗纳德·费舍尔在1936年收集而来。该数据包含了三种不同种类的鸢尾花(山鸢尾、变色鸢尾和维吉尼亚鸢尾)的花萼长度、花萼宽度、花瓣长度和花瓣宽度的测量值。下面是使用Python鸢尾花数据集进行可视化的步骤: 1. 导入必要的库:首先需要导入一些常用的数据科学库,例如numpy、pandas和matplotlib,以及用于加载数据集的sklearn库。 2. 读取数据:使用sklearn库中的load_iris函数加载鸢尾花数据集,并将其存储在一个变量中。这个数据集是一个sklearn自带的示例数据集,非常容易加载和使用。 3. 显示数据:可以使用pandas库中的DataFrame来显示数据集的前几行。DataFrame是一个二维的表格结构,可以更加直观地展示数据。 4. 描述性统计:使用pandas库的describe函数可以显示数据集的一些基本统计信息,如平均值、标准差、最小值、最大值等。 5. 散点图:使用matplotlib库绘制散点图来可视化鸢尾花数据集。可以根据花瓣长度和花瓣宽度的测量值,将数据集中的每个样本点绘制在二维坐标系上。通过使用不同的颜色或符号来表示不同种类的鸢尾花,可以更好地区分不同种类的花朵。 通过上述步骤,我们可以很方便地读取鸢尾花数据集,显示数据集,获取描述性统计信息,并通过散点图将数据可视化。这些步骤是进行数据分析和机器学习中的基本操作,可以帮助我们更好地理解鸢尾花数据集,并做进一步的分析和挖掘。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老狼IT工作室

你的鼓励将是我创作的最大动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值