Series格式和ndarray格式中,提取特定的一列数据
本文使用的数据集是鸢尾花,代码写在jupy notebook中。
数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。
读取数据
人为的给数据集添加特征名,names = [‘sepal_len’, ‘sepal_wid’, ‘petal_len’, ‘petal_wid’, ‘class’]
import numpy as np
import pandas as pd
df = pd.read_csv('iris.data', header = None, names = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid', 'class'])
print(df.shape)
df.head()
运行结果:
Series中提取某一列数据
将原始数据集划分为训练集和标签,划分后的X和Y是Series类型。用bool型数据做索引,提取标签为“Iris-setosa”的子块。
X = df.iloc[: