均值:即平均数,数列中各数总和除以个数。可用numpy.mean函数计算
中位数: 数字从小到大排列的数列中位于中间位置的那个数,如果数列个数为奇数位则中位数位于(n+1)/2, 如果为偶数位则为n/2与n/2+1的两个数的平均值,可以用numpy.median函数计算
众数:数列中出现频率最多的数, 可以用scipy的stats.mode函数计算
全距:数列中最大值与最小值的差
四分位数:将从小到大排列的数列平均分为4段,最小的四分位数称为下四分位数,最大的成为上四分位数,中间的称为中位数
可以用箱线图展示以上数据(仍以维他命价格为例,数据下载地址)
图形如下
左侧为价格的散点图
右侧为箱线图,其中
- min为价格的最小值
- max为价格的最大值
- q1是第一四分位数(下四分位数)即位于25%位值的数
- median为中位数
- q3为第三四分位数(上四分位数)也即位于第75%的数,说明50%的价格集中在¥38.9与¥120.45之间
- upper fence为上限=Q3+1.5IQR,四