机器学习的第一步是准备数据,好的数据能帮助我们加深对机器学习算法的理解。
不管是在学习还是实际工作中,准备数据永远是一个枯燥乏味的步骤。scikit-learn
库显然看到了这个痛点,才在它的数据加载子模块中为我们准备了直接可用的数据集。
在它的数据加载子模块中,提供了6种直接可用来学习算法的经典数据集,被称为 Toy Datasets
,
也就是本篇准备介绍的玩具数据集。
1. 鸢尾花数据集
著名的鸢尾花数据集,最初由R.A.费舍尔爵士使用。
数据集取自费舍尔的论文。
1.1. 加载方式
from sklearn.datasets import load_iris
# 加载后的数据集 ds 是一个字典
ds = load_iris()
ds
直接的返回的字典中,除了数据还包含一些描述数据的元信息。
如果想要直接得到用于分析的数据,加载时设置如下的参数:
# as_frame 参数将数据部分设为pandas的Dataframe格式
# return_X_y 参数表示返回 (data, target) 格式
ds = load_iris(as_frame=True, return_X_y=True)
ds[0] # Dataframe格式的数据
1.2. 数据概况
鸢尾花数据集是一个简单的多级分类数据集。
概况 | 说明 |
---|---|
样本分类 | 3种 |
每种分类样本数 | 50 |
样本总数 | 150 |
样本维度 | 4 |
样本特征 | real ,
|