本节内容:下载常用的sklearn真实分类问题数据集,并保存为excel文件
鸢尾花数据集
糖尿病数据集
手写数字
红酒数据集
乳腺癌数据集
1:鸢尾花数据集
这个数据集包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本,以及它们各自对应的4种关于花外形的数据–分类问题
数据特征数值全为正
from sklearn import datasets # 导入库
iris = datasets.load_iris() # 导入鸢尾花数据
print(iris.data.shape,iris.target.shape) # (150, 4) (150,)
print(iris.feature_names) # [花萼长,花萼宽,花瓣长,花瓣宽]
print(type(iris))
(150, 4) (150,)
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
<class 'sklearn.utils.Bunch'>
可以看到sklearn数据库的数据类型为’sklearn.utils.Bunch’
无法直接用pd.DataFrame(iris)将其转为pandas可操作的DataFrame的数据
#将'sklearn.utils.Bunch'数据转换为pandas数据
def sklearn_to_df(sklearn_dataset):
df = pd.DataFrame(sklearn_dataset.data, columns=sklearn_dataset.feature_names