"""
@Title: datasets
@Time: 2024/3/8
@Author: Michael Jie
"""
import sklearn.datasets as ds
# 获取小数据集,鸢尾花数据集(分类)
# 返回sklearn.utils.Bunch对象
iris = ds.load_iris(
# 若为True,返回(data, target)元组,而不是Bunch对象
return_X_y=False,
# 若为True,数据以pandas DataFrame/Series对象形式返回
as_frame=False
)
# 获取大数据集,加利福尼亚住房数据集(回归)
california_housing = ds.fetch_california_housing(
# 为数据集指定另一个下载和缓存文件夹
data_home=None,
# 若为False,当本地无资源时报错
download_if_missing=True,
# 若为True,返回(data, target)元组,而不是Bunch对象
return_X_y=False,
# 若为True,数据以pandas DataFrame/Series对象形式返回
as_frame=False
)
# 创建数据集,服从正态分布的聚类数据集
ds.make_blobs(
# 样本数
n_samples=1000,
# 特征维度
n_features=2,
# 簇数
centers=3,
# 每簇数据的标准差
cluster_std=1,
# 聚类中心的边界
center_box=(-10.0, 10.0),
# 样本生成后洗牌
shuffle=True,
# 确定用于创建数据集的随机数生成
random_state=None,
# 是否返回中心点
return_centers=True
)
# Bunch对象属性
print(iris.keys())
"""
dict_keys([
'data', # 特征值数组
'target', # 标签数组
'feature_names', # 特征值列名
'target_names', # 标签分类
'frame', # 包含特征值和标签的数组,当as_frame=True时存在
'DESCR', # 数据集描述
'filename', # 本地保存路径
'data_module'
])
"""