箱线图通过数据的四分位数来展示数据的分布情况。例如:数据的中心位置,数据间的离散程度,是否有异常值等。
把数据从小到大进行排列并等分成四份,第一分位数(Q1),第二分位数(Q2)和第三分位数(Q3)分别为数据的第25%,50%和75%的数字。
I-------------I o I-------------I o I-------------I o I-------------I
Q1 Q2 Q3
(lower quartile) (median) (upper quartile)
四分位间距(Interquartile range(IQR))=上分位数(upper quartile) - 下分位数(lower quartile)
箱线图分为两部分,分别是箱(box)和须(whisker)。箱(box)用来表示从第一分位到第三分位的数据,须(whisker)用来表示数据的范围。
箱线图从上到下各横线分别表示:数据上限(通常是Q3+1.5*IQR),第三分位数(Q3),第二分位数(中位数),第一分位数(Q1),数据下限(通常是Q1-1.5*IQR)。有时还有一些圆点,位于数据上下限之外,表示异常值(outliers)。
(注:如果数据上下限特别大,那么whisker将显示数据的最大值和最小值。)
下面利用Jake Vanderplas所著的《Python数据科学手册》一书中的数据,学习画图。
数据地址:https://raw.githubusercontent.com/jakevdp/data-CDCbirths/master/births.csv
import pandas as pd
from matplotlib import pyplot as plt
birth=pd.read_csv(r"https://raw.githubusercontent.com/jakevdp/data-CDCbirths/master/births.csv")
fig,ax=plt.subplots()
birth=birth.iloc[:15067]
birth["day"]=birth["day"].astype(int)
birth["date"]=pd.to_datetime({"year":birth["y