Sklearn提供的常用数据集

最新推荐文章于 2024-04-17 09:12:26 发布

爱笑的光头强

最新推荐文章于 2024-04-17 09:12:26 发布

阅读量1.1w

点赞数 2

文章标签：机器学习算法

本文链接：https://blog.csdn.net/shiguanggege/article/details/113791451

版权

一、自带的小数据集（packageddataset）：sklearn.datasets.load_

   鸢尾花数据集：load_iris（）：用于分类任务的数据集

   手写数字数据集：load_digits（）:用于分类任务或者降维任务的数据集

   乳腺癌数据集load-barest-cancer（）：简单经典的用于二分类任务的数据集

   糖尿病数据集：load-diabetes（）：经典的用于回归认为的数据集，值得注意的是，这10个特征中的每个特征都已经被处理成0均值，方差归一化的特征值。

   波士顿房价数据集：load-boston（）：经典的用于回归任务的数据集

   体能训练数据集：load-linnerud（）：经典的用于多变量回归任务的数据集。

二、可在线下载的数据集：sklearn.datasets.fetch_，一般规模较大（DownloadedDataset）。

fetch_olivetti_faces(data_home=None, shuffle=False, random_state=0,download_if_missing=True)：Olivetti 脸部图片数据集。

三、计算机生成的数据集（GeneratedDataset）：sklearn.datasets.make_

   make_blobs：多类单标签数据集，为每个类分配一个或多个正太分布的点集

   make_classification：多类单标签数据集，为每个类分配一个或多个正太分布的点集，提供了为数据添加噪声的方式，包括维度相关性，无效特征以及冗余特征等

   make_gaussian-quantiles：将一个单高斯分布的点集划分为两个数量均等的点集，作为两类

   make_hastie-10-2：产生一个相似的二元分类数据集，有10个维度

   make_circle和make_moom产生二维二元分类数据集来测试某些算法的性能，可以为数据集添加噪声，可以为二元分类器产生一些球形判决界面的数据。

四、svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(…)

from sklearn.datasets importload_svmlight_file

x_train,y_train=load_svmlight_file("/path/to/train_dataset.txt","")#如果要加在多个数据的时候，可以用逗号隔开

svmlight/libsvm的每一行样本的存放格式：

: :…

五、data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(…)

from sklearn.datasets.mldata import fetch_mldata
import tempfile
test_data_home = tempfile.mkdtemp()
iris = fetch_mldata(‘iris’, data_home=test_data_home)
print(iris);print(iris.target.shape);print(iris.data.shape)

爱笑的光头强

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
Sklearn提供的常用数据集

一、自带的小数据集（packageddataset）：sklearn.datasets.load_ 鸢尾花数据集：load_iris（）：用于分类任务的数据集手写数字数据集：load_digits（）:用于分类任务或者降维任务的数据集乳腺癌数据集load-barest-cancer（）：简单经典的用于二分类任务的数据集糖尿病数据集：load-diabetes（）：经典的用于回归认为的数据集，值得注意的是，这10个特征中的每个特征都已经被处理成0均值，方差归
复制链接

扫一扫