需要用到的模块:matplotlib和seaborn
箱线图
箱线图可以提供数据位置及其分散情况的关键信息,主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
如上图所示,箱线图主要包含几个关键的数据,上、下四方位数,中位数,上、下边缘以及异常值。简单来说,上四分位数表示全部数据中有四分之一的数据大于它,异常值表示远离上或下四分位数。
我们来用箱线图观察一下宝可梦的各项属性的分散情况。
df2=df.drop(['Generation','Total','Legendary'],axis=1)
sns.boxplot(data=df2)
plt.show()
可以看到每种属性都有异常值,远超于普通宝可梦,其中血量值的异常值数量最多。
接着我们来看不同的代目的各种属性的分布特征,共用同一个Y轴,同时绘制四张子图。
fig,axes=plt.subplots(1,4,sharey=True)
sns.boxplot(x="Generation",y="Attack",data=df,ax=axes[0])
sns.boxplot(x="Generation",y="Sp.Atk",data&