任务描述
使用 scikit-learn 的datasets模块导入 iris 数据集,并打印数据。
相关知识
scikit-learn 包括一些标准数据集,不需要从外部下载,可直接导入使用,比如与分类问题相关的Iris数据集和digits手写图像数据集,与回归问题相关的波士顿房价数据集。
以下列举一些简单的数据集,括号内表示对应的问题是分类还是回归:
#加载并返回波士顿房价数据集(回归)load_boston([return_X_y])#加载并返回iris数据集(分类)load_iris([return_X_y])#加载并返回糖尿病数据集(回归)load_diabetes([return_X_y])#加载并返回数字数据集(分类)load_digits([n_class, return_X_y])#加载并返回linnerud数据集(多分类)load_linnerud([return_X_y])
这些标准数据集采用类字典的对象格式存储,比如.data表示原始数据,是一个(n_samples,n_features)二维数组,通过.shape可以得到二维数组大小,.target表示存储数据类别即标签。
下面我们将利用datasets加载数据集digits作为示例,如下图所示:

在命令行输入python进入 Python 终端,>>>表示 Python 终端提示符,输入 Python 命令即可执行。y[:5]表示标签的前 5 个数据。
编程要求
本关任务是,使用 scikit-learn 的datasets模块导入iris数据集,提取前 5 条原数据、前 5 条数据标签及原数据的数组大小。 请按照编程要求,补全右侧编辑器Begin-End区间的代码。
from sklearn import datasetsdef getIrisData():'''导入Iris数据集返回值:X - 前5条训练特征数据y - 前5条训练数据类别X_shape - 训练特征数据的二维数组大小'''#初始化X = []y = []X_shape = ()# 请在此添加实现代码 ##********** Begin *********##********** End **********#return X,y,X_shape
测试说明
本关的测试文件是step1/testImportData.py,该代码负责对你的实现代码进行测试,注意step1/testImportData.py 不能被修改,该测试代码具体如下:
import importDataX,y,X_shape = importData.getIrisData()print(X)print(y)print(X_shape)
#导入sklearn模块中的datasets函数
from sklearn import datasets
#自建函数
def getIrisData():
'''
导入Iris数据集
返回值:
X - 前5条训练特征数据
y - 前5条训练数据类别
X_shape - 训练特征数据的二维数组大小
'''
#初始化
X = []
y = []
X_shape = ()
# 请在此添加实现代码 #
#********** Begin *********#
#导入iris数据集
iris = datasets.load_iris()
#提取前 5 条原数据
X = iris.data[:5]
#提取前 5 条数据标签及原数据
y = iris.target[:5]
X_shape = iris.data.shape
#********** End **********#
return X,y,X_shape
本教程介绍了如何使用scikit-learn的`datasets`模块加载鸢尾花(Iris)数据集,并从中提取前5条特征数据、对应的类别标签以及数据的数组大小。鸢尾花数据集是一个经典的分类问题数据集,包含150个样本,每个样本有4个特征和1个类别标签。
1687

被折叠的 条评论
为什么被折叠?



