sklearn中datasets的使用与实践

最新推荐文章于 2024-07-19 19:07:41 发布

AI_Younger_Man

最新推荐文章于 2024-07-19 19:07:41 发布

阅读量4.9k

点赞数 6

分类专栏： # 机器学习 Machine Learning 文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/qq_38888209/article/details/105697388

版权

本文介绍了sklearn.datasets模块，包括本地加载、远程下载和构造数据集的方法。通过示例展示了波士顿房价、乳腺癌、糖尿病、手写数字、鸢尾花和红酒等数据集的使用，并讲解了如何自定义生成正态分布聚类、同心圆和模拟分类数据集。

摘要由CSDN通过智能技术生成

介绍
sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法，可以通过dir或help命令查看，目前主要有三种形式：

load_<dataset_name> 本地加载数据，保存在了本地磁盘上
fetch_<dataset_name> 远程加载数据
make_<dataset_name> 构造数据集

方法

本地加载数据集

数据集文件在sklearn安装目录下datasets\data文件下,如果有兴趣可进入模块目录查看

datasets.load_boston #波士顿房价数据集  
datasets.load_breast_cancer #乳腺癌数据集  
datasets.load_diabetes #糖尿病数据集  
datasets.load_digits #手写体数字数据集  
datasets.load_files  
datasets.load_iris #鸢尾花数据集  
datasets.load_lfw_pairs  
datasets.load_lfw_people  
datasets.load_linnerud #体能训练数据集  
datasets.load_mlcomp  
datasets.load_sample_image  
datasets.load_sample_images  
datasets.load_svmlight_file  
datasets.load_svmlight_files

2、远程加载数据集
比较大的数据集，主要用于测试解决实际问题，支持在线下载，下载下来的数据，默认保存在~/scikit_learn_data文件夹下，可以通过设置环境变量SCIKIT_LEARN_DATA修改路径，datasets.get_data_home()获取下载路径。
在这里插入图片描述

datasets.fetch_20newsgroups  
datasets.fetch_20newsgroups_vectorized  
datasets.fetch_california_housing  
datasets.fetch_covtype  
datasets.fetch_kddcup99  
datasets.fetch_lfw_pairs  
datasets.fetch_lfw_people  
datasets.fetch_mldata  
datasets.fetch_olivetti_faces  
datasets.fetch_rcv1  
datasets.fetch_species_distributions

3、构造数据集
下面以make_regression()函数为例，首先看看函数语法：
make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)
参数说明：
n_samples：样本数
n_features：特征数(自变量个数)
n_informative：相关特征(相关自变量个数)即参与了建模型的特征数
n_targets：因变量个数
bias：偏差(截距)
coef：是否输出coef标识
在这里插入图片描述

datasets.make_biclusters  
datasets.make_blobs  
datasets.make_checkerboard  
datasets.make_circles  
datasets.make_classification  
datasets.make_friedman1  
datasets.make_friedman2  
datasets.make_friedman3  
datasets.make_gaussian_quantiles  
datasets.make_hastie_10_2  
datasets.make_low_rank_matrix  
datasets.make_moons  
datasets.make_multilabel_classification  
datasets.make_regression  
datasets.make_s_curve  
datasets.make_sparse_coded_signal  
datasets.make_sparse_spd_matrix  
datasets.make_sparse_uncorrelated  
datasets.make_spd_matrix  
datasets.make_swiss_roll

实践

1、本地磁盘自带的小数据集

1.1 波士顿房价数据（适用于回归任务）

这个数据集包含了506处波士顿不同地理位置的房产的房价数据（因变量），和与之对应的包含房屋以及房屋周围的详细信息（自变量），其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等13个维度的数据，因此，波士顿房价数据集能够应用到回归问题上。<

最低0.47元/天解锁文章

AI_Younger_Man

关注

6
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
sklearn中datasets的使用与实践

介绍 sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法，可以通过dir或help命令查看，目前主要有三种形式：load_<dataset_name> 本地加载数据，保存在了本地磁盘上fetch_<dataset_name> 远程加载数据make_<dataset_name> 构造数据集方法本地加载数据集...
复制链接

扫一扫

专栏目录