用R语言学习数据挖掘——2.用R计算数据基本统计量(中位数、百分位数)

学习了用R计算样本数据的平均值之后(用R计算均值),下面继续学习其他统计量。

目录

中位数

median(x, na.rm = FALSE)

百分位数

quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,names = TRUE, type = 7, ...) 


中位数

定义:

为什么要有中位数?

我们要知道的是,均值描述并不总是可靠的或最佳的。均值对于极端值(例如离群点)很敏感, 比如整个公司薪水的均值由几个极高收入的经理显著推高。为了抵消少数极端值的影响,我们可以使用截尾均值(丢弃极端值后计算均值)。截尾均值一般是去掉高端和低端的2%数据。

但是,当异常值的价值非常大时,用截尾均值同样会丢失大量的价值数据。

对于倾斜数据,更好的度量值是中位数。

中位数定义为数据排序位于中间位置的数据,比如一组样本数据:3,1,7,5,9  则中位数为5。

中位数描述数据中心位置的数字特征,大体上比中位数大或小的数据个数为整个数据的一半。 对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同。在大部分实际应用中,数据都是不对称的,如下图,可能是正倾斜的(b),也可能是负倾斜的(c)。

中位数的显著特点是不受异常值的影响,具有稳健性&

  • 3
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值