Pandas在机器学习和建模中也非常重要,经常用于数据观察、数据格式转换以及数据的归一化和标准化。本案例中,我们介绍Pandas配合sklearn使用经典的鸢尾花研究数据来做品种预测。
sklearn集成了iris数据集,它共有4个属性列和一个种类列。4个属性是sepal length(萼片长度)、sepal width(萼片宽度)、petal length(花瓣长度)和petal width(花瓣宽度),单位都是厘米。3个种类是Setosa、Versicolour和Virginica,样本数量为150个,每类50个。
首先,将数据加载到DataFrame:
import pandas as pd
from sklearn.datasets import load_iris
df=pd.DataFrame(load_iris().data,columns=['萼片长度','萼片宽度','花瓣长度','花瓣宽度'])
df=df.assign(种类=load_iris().target)
df=df.assign(种类名称=df['种类'].map({0:'Setosa',1:'Versicolour',2:'Virginica'}))
df
'''
萼片长度 萼片宽度 花瓣长度 花瓣宽度 种类 种类名称
0 5.1 3.5 1.4 0.2 0 Setosa
1 4.9 3.0 1.4 0.2 0 Setosa
2 4.7 3.2 1.3 0.2 0 Setosa
3 4.6 3.1 1.5 0.2 0 Setosa
4 5.0 3.6 1.4 0.2 0 Setosa
... ... .