sklearn.datasets常用API介绍

本文将深入探讨scikit-learn库中的datasets模块,包括常见数据集的加载、数据预处理及如何利用这些数据集进行机器学习模型训练。通过对iris、digits等经典数据集的实例解析,帮助读者理解其用法。
摘要由CSDN通过智能技术生成
sklearn.datasets
返回元组(X,y),X是n_samples*n_features的矩阵表示样本特征,y是n_samples*1的矩阵表示标签
含有属性data为X,target是y
含有属性DESCR包含feature_names和target_names,表示数据集的详细描述.

load_boston([return_X_y]) 返回波士顿房价数据集,回归问题
return_X_y:默认为False,为True时返回元组(data,target)

load_iris([return_X_y])返回 鸢尾花数据集,分类问题

load_diabetes([return_X_y])返回糖尿病数据集,回归问题

load_digits([return_X_y])返回数字识别数据集,分类

load_breast_cancer([return_X_y])返回乳癌的数据集,分类问题

sklearn.datasets.fetch_olivetti_faces(data_home=None,shuffle=False,random_state=0,download_if_missing=True)
此数据集包括40个不同的人每人取10张照片,照片表示为8bit的整数,灰度值为0-256,加载时会将灰度值转化为[0,1]内方便很多算法处理
每张照片表示为64*64像素

data_home:选择数据集的文件,默认为'../scikit_learn_data'

shuffle:boolean,如果为True则每次选择图片时打乱顺序,避免选择同一个人的图片

random_state:参数为int,RandomState instance or None.用来设置生成随机数的方式
int:作为随机数生成器的种子
RandomState instance:作为随机数生成器
None:随机数生成器采用np.random

download_if_missing:boolean,默认为True
如果为False,下载数据失败后生成IOError,而不是从源网站继续下载
(上述参数为每个函数都具有的通用参数,下面不再赘述ÿ
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值