作为Python中经典的机器学习模块,sklearn围绕着机器学习提供了很多可直接调用的机器学习算法以及很多经典的数据集,本文就对sklearn中专门用来得到已有或自定义数据集的datasets模块进行详细介绍;
datasets中的数据集分为很多种,本文介绍几类常用的数据集生成方法,本文总结的所有内容你都可以在sklearn的官网:
http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets
中找到对应的更加详细的英文版解释;
1 自带的经典小数据集
1.1 波士顿房价数据(适用于回归任务)
这个数据集包含了506处波士顿不同地理位置的房产的房价数据(因变量),和与之对应的包含房屋以及房屋周围的详细信息(自变量),其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等13个维度的数据,因此,波士顿房价数据集能够应用到回归问题上,这里使用load_boston(return_X_y=False)方法来导出数据,其中参数return_X_y控制输出数据的结构,若选为True,则将因变量和自变量独立导出;
from sklearn importdatasets'''清空sklearn环境下所有数据'''datasets.clear_data_home()'''载入波士顿房价数据'''X,y= datasets.load_boston(return_X_y=True)'''获取自变量数据的形状'''
print(X.shape)'''获取因变量数据的形状'''
print(y.shape)
自变量X:
因变量y:
1.2 威斯康辛州乳腺癌数据(适用于分类问题)
这个数据集包含了威斯康辛州记录的569个病人的乳腺癌恶性/良性(1/0)类别型数据(训练目标),以及与之对应的30个维度的生理指标数据;因此这是个非常标准的二类判别数据集,在这里使用load_breast_cancer(return_X_y)来导出数据:
from sklearn importdatasets'''载入威斯康辛州乳腺癌数据'''X,y= datase