大数据集的箱形图
在使用大数据集(n=10000-100000)可以提供更加精准的四分位数之外的数据估计;
同时可以展示大量的异常值;
letter-value箱形图
不仅能展示四分位之外的数据分布信息;
还能显示异常值的分布情况;
在箱形图[中值median(M)和四分位数fourths(F)]的基础上,往两端延伸,增加箱形的个数:1/8eigths(E),1/16sixteenths(D)........ 直到估计误差增大到一定的阀值;
箱形图优点:
能够比带误差线的柱形图更好展示数据的分布情况;
箱形图缺点:
无法识别多峰分布情况;
绘制大数据集的箱形图
Seaborn包的boxenplot()函数绘制大数据集箱形图
不同数据量的正态分布大数据集箱形图
import pan