Python-sklearn-datasets

最新推荐文章于 2024-05-22 17:12:34 发布

2401_82889064

最新推荐文章于 2024-05-22 17:12:34 发布

阅读量526

点赞数 8

分类专栏： sklearn 文章标签： python sklearn

本文链接：https://blog.csdn.net/2401_82889064/article/details/136558073

版权

sklearn 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

使用sklearn.datasets加载数据集

"""
@Title: datasets
@Time: 2024/3/8
@Author: Michael Jie
"""

import sklearn.datasets as ds

# 获取小数据集，鸢尾花数据集（分类）
# 返回sklearn.utils.Bunch对象
iris = ds.load_iris(
    # 若为True，返回(data, target)元组，而不是Bunch对象
    return_X_y=False,
    # 若为True，数据以pandas DataFrame/Series对象形式返回
    as_frame=False
)

# 获取大数据集，加利福尼亚住房数据集（回归）
california_housing = ds.fetch_california_housing(
    # 为数据集指定另一个下载和缓存文件夹
    data_home=None,
    # 若为False，当本地无资源时报错
    download_if_missing=True,
    # 若为True，返回(data, target)元组，而不是Bunch对象
    return_X_y=False,
    # 若为True，数据以pandas DataFrame/Series对象形式返回
    as_frame=False
)

# 创建数据集，服从正态分布的聚类数据集
ds.make_blobs(
    # 样本数
    n_samples=1000,
    # 特征维度
    n_features=2,
    # 簇数
    centers=3,
    # 每簇数据的标准差
    cluster_std=1,
    # 聚类中心的边界
    center_box=(-10.0, 10.0),
    # 样本生成后洗牌
    shuffle=True,
    # 确定用于创建数据集的随机数生成
    random_state=None,
    # 是否返回中心点
    return_centers=True
)

# Bunch对象属性
print(iris.keys())
"""
dict_keys([
    'data',  # 特征值数组
    'target',  # 标签数组
    'feature_names',  # 特征值列名
    'target_names',  # 标签分类
    'frame',  # 包含特征值和标签的数组，当as_frame=True时存在
    'DESCR',  # 数据集描述
    'filename',  # 本地保存路径
    'data_module'
])
"""