说明
鸢尾花是一种单子叶百合目花卉,鸢尾花数据集是一个很小的数据集,仅有150行,5列,该数据集的四个特征属性的取值都是数值型的,具有相同的量纲,不需要做任何标准化处理,第五列为前四列所确定的鸢尾花所属的类别名称。
这个数据集中共有150朵鸢尾花的数据,每个数据都包含花萼长度,花萼宽度,花瓣长度,花瓣宽度四个特征,以及setosa,versicolor,virginica三种鸢尾花种类作为标签,鸢尾花数据集是典型的高维特征,多分类的监督学习数据集,可以用来试验分类,聚类,降维,可视化等代码。
可视化库seaborn导入鸢尾花数据集
从数据可视化工具包中导入鸢尾花数据集,df为pandas的DateFrame类型,也就是二维表格`
# 导入python可视化库matplotlib
import matplotlib.pyplot as plt
# 使用ipython ,将绘制出的图像直接嵌入在notebook单元格中
%matplotlib inline
#设置绘图大小
plt.style.use({'figure.fignize':(10,8)})
Seaborn 是基于matplotlib的python可视化库,将matplotlib库进行了进一步封装,使用更加简单,而且绘制出的图表更加高级
#导入python可视化库seaborn
import seaborn as sns
#设置seaborn的绘图主题为whitegrid
sns.set_style("whitegrid")
#导入鸢尾花数据集
df = sns.load_dateset("iris")
查看形状
查看df中各列数据的统计特征
其中sepal_length表示的是该数据集的花萼长度,speal_width是花萼宽度,petal_length为花瓣长度,petal_width为花瓣宽度。纵列中的count表示了该数据集中共有150个数据,mean为这四列数据的平均值,std为标准差,以及最大值最小值四分之一值等等的表示
info函数可以看出数据集中的缺失值,以及每一列的数据类型,我么可以看到,四列数据均是150,所以鸢尾花数据集是没有缺失的。
sklearn导入数据集
from sklearn.datasets import load_iris
data = load_iris()
data.data # 特征
data.target # 标签
对于鸢尾花数据集的在线读取,以及使用KNN算法实现鸢尾花数据集,可以通过如下链接找到
关于KNN算法分析鸢尾花数据集