1.通用数据API
scikit-learn提供几种类型的数据集接口,每个数据集都包含一个描述DESCR
和 feature_names
和 target_names
:
1. Toy datasets;
2. Sample images;
2.Toy datasets
scikit-learn 提供了一些标准的数据集,而不需要额外从网站下载
这个类似字典的对象至少包含两项,键值为data
的n_samples*n_features
的array;键值为target
的长度为n_samples
的numpy array。
-load_boston([return_X_y])
:下载并返回波士顿房价的数据集,用于回归
-load_iris([return_X_y])
:下载并返回鸢尾花的数据集,用于分类
-load_diabetes([return_X_y])
:下载并返回一个糖尿病的数据集,用于回归
-load_digits([return_X_y])
:下载并返回一个数字的数据集,用于分类
-load_linnerud([return_X_y])
:下载并返回一个linnerud的数据集,用于多元回归
示例1:
3.Sample images
scikit 嵌入了一些由创作者共享许可发布的JPEG图像,可用于测试算法和2D数据管道
load_sample_images()
:
包含以下属性:
-images
:两个样本图像;
-filenames
:图片的文件名;
-DESCR
:对数据集的描述
示例:
load_sample_images(image_name)
:下载单个图像的数据集numpy array
注意:默认的图片编码方式是uint8