Sklearn提供的常用数据集

一、自带的小数据集(packageddataset):sklearn.datasets.load_

  1.    鸢尾花数据集:load_iris():用于分类任务的数据集
    
  2.    手写数字数据集:load_digits():用于分类任务或者降维任务的数据集
    
  3.    乳腺癌数据集load-barest-cancer():简单经典的用于二分类任务的数据集
    
  4.    糖尿病数据集:load-diabetes():经典的用于回归认为的数据集,值得注意的是,这10个特征中的每个特征都已经被处理成0均值,方差归一化的特征值。
    
  5.    波士顿房价数据集:load-boston():经典的用于回归任务的数据集
    
  6.    体能训练数据集:load-linnerud():经典的用于多变量回归任务的数据集。
    

二、可在线下载的数据集:sklearn.datasets.fetch_,一般规模较大(DownloadedDataset)。

fetch_olivetti_faces(data_home=None, shuffle=False, random_state=0,download_if_missing=True):Olivetti 脸部图片数据集。

三、计算机生成的数据集(GeneratedDataset):sklearn.datasets.make_

  1.    make_blobs:多类单标签数据集,为每个类分配一个或多个正太分布的点集
    
  2.    make_classification:多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等
    
  3.    make_gaussian-quantiles:将一个单高斯分布的点集划分为两个数量均等的点集,作为两类
    
  4.    make_hastie-10-2:产生一个相似的二元分类数据集,有10个维度
    
  5.    make_circle和make_moom产生二维二元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为二元分类器产生一些球形判决界面的数据。
    

四、svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(…)

from sklearn.datasets importload_svmlight_file

x_train,y_train=load_svmlight_file("/path/to/train_dataset.txt","")#如果要加在多个数据的时候,可以用逗号隔开

svmlight/libsvm的每一行样本的存放格式:

五、data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(…)

from sklearn.datasets.mldata import fetch_mldata
import tempfile
test_data_home = tempfile.mkdtemp()
iris = fetch_mldata(‘iris’, data_home=test_data_home)
print(iris);print(iris.target.shape);print(iris.data.shape)

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱笑的光头强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值