sklearn真实分类问题数据集下载

最新推荐文章于 2024-05-17 09:07:36 发布

「已注销」

最新推荐文章于 2024-05-17 09:07:36 发布

阅读量414

点赞数

文章标签： sklearn 分类 python

本文链接：https://blog.csdn.net/qq_44425179/article/details/130927939

版权

本节内容：下载常用的sklearn真实分类问题数据集，并保存为excel文件

鸢尾花数据集

糖尿病数据集

手写数字

红酒数据集

乳腺癌数据集

1：鸢尾花数据集

这个数据集包含了150个鸢尾花样本，对应3种鸢尾花，各50个样本，以及它们各自对应的4种关于花外形的数据–分类问题

数据特征数值全为正

from sklearn import datasets  # 导入库

iris = datasets.load_iris()  # 导入鸢尾花数据
print(iris.data.shape,iris.target.shape)  # (150, 4) (150,)
print(iris.feature_names)  # [花萼长，花萼宽，花瓣长，花瓣宽]
print(type(iris))

(150, 4) (150,)
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
<class 'sklearn.utils.Bunch'>

可以看到sklearn数据库的数据类型为’sklearn.utils.Bunch’

无法直接用pd.DataFrame(iris)将其转为pandas可操作的DataFrame的数据

#将'sklearn.utils.Bunch'数据转换为pandas数据

def sklearn_to_df(sklearn_dataset):
    df = pd.DataFrame(sklearn_dataset.data, columns=sklearn_dataset.feature_names