1.箱线图的概念
箱线图是用来表示一组或多组连续型数据分布的中心位置和散布范围的图形,因形似箱子故取名为箱线图。
2.如何看箱线图
箱线图理解的三要素:
箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。
箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。
箱子的高度在一定程度上反映了数据的波动程度。
在箱子的上方和下方,各有一条线。代表最大最小值,有时候会有一些点“冒出去”,可以理解成"异常值"
3.案例
eg1.
下图是不同地区数据分析师的薪酬统计情况
eg2.假设A,B,C为三位运动员,需要选一位去参加比赛
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data=pd.DataFrame({
"A":[6,6,4,8,9,4,6,3,9,10],
"B":[8,10,10,9,9,9,9,9,8,8],
"C":[1,4,5,5,5,8,10,10,10,10]
})
data.plot.box()
plt.grid()#设置网格线
AC的高度较高,说明成绩浮动较大,不稳定
B中的上四分卫和下四分卫距离特别近,说明其数据较为集中,说明B较为稳定
B是我们所需要的运动员
需要更多案例理解可以上这里
https://zhuanlan.zhihu.com/p/426798602