学习了用R计算样本数据的平均值之后(用R计算均值),下面继续学习其他统计量。
目录
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,names = TRUE, type = 7, ...)
中位数
定义:
为什么要有中位数?
我们要知道的是,均值描述并不总是可靠的或最佳的。均值对于极端值(例如离群点)很敏感, 比如整个公司薪水的均值由几个极高收入的经理显著推高。为了抵消少数极端值的影响,我们可以使用截尾均值(丢弃极端值后计算均值)。截尾均值一般是去掉高端和低端的2%数据。
但是,当异常值的价值非常大时,用截尾均值同样会丢失大量的价值数据。
对于倾斜数据,更好的度量值是中位数。
中位数定义为数据排序位于中间位置的数据,比如一组样本数据:3,1,7,5,9 则中位数为5。
中位数描述数据中心位置的数字特征,大体上比中位数大或小的数据个数为整个数据的一半。 对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同。在大部分实际应用中,数据都是不对称的,如下图,可能是正倾斜的(b),也可能是负倾斜的(c)。
中位数的显著特点是不受异常值的影响,具有稳健性&