鸢尾花数据集(Iris)
共有数据150组,每组包括花萼长、花萼宽、花瓣长、花瓣宽4个输入特征。
同时给出了,这一组特征对应的鸢尾花类别。类别包括:
Setosa Iris(狗尾草鸢尾),
Versicolour Iris(杂色鸢尾),
Virginica Iris(弗吉尼亚鸢尾)
三类,分别用数字0,1,2表示。
鸢尾花数据集的读入和显示
从sklearn包读入Iris数据集
使用pandas包中的DataFrame函数将Iris数据集转化成表格形式
from sklearn import datasets #加载sklearn包dataset中读入Iris数据集
from pandas import DataFrame #加载pandas包
import pandas as pd
x_data = datasets.load_iris().data # .data返回iris数据集所有输入特征
y_data = datasets.load_iris().target # .target返回iris数据集所有标签
#用print函数打印出来看一下效果
print("x_data from datasets(未增加任何格式,直接显示数据): \n", x_data)
print("y_data from datasets(未增加任何格式,直接显示数据): \n", y_data)
x_data = DataFrame(x_data, columns=['花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'])
# 为增加可读性实用DataFrame()将数据转化成表格的形式,
# 每一列增加中文标签
# 为表格增加行索引(左侧)和列标签(上方)
pd.set_option('display.unicode.east_asian_width', True)
# 设置列对齐
print("x_data add index(每一列增加中文标签,设置列对齐): \n", x_data)
x_data['类别'] = y_data # 表格中新加一列,列标签为‘类别’,数据为y_data
p