R(12):第三章:3.1描述统计量

《统计建模与R软件》薛毅

总结:3.1 节总结
均值计算,mean(x, trim = 0, na.rm = FALSE),x是向量,trim去除偏差值,na.rm去除NA值;顺序统计量(排序),sort;中位数median();百分比quantile(),上四分位,下四分位;记住脚本函数data_outline.R,里面包含本节所有计算函数。

第3章 数据描述性分析

统计分析分为统计描述和统计推断两个部分,统计描述是通过绘制统计图、编制统计表、计算统计量等方法来表述数据的分布特征。

3.1 描述统计量

要研究数据的数字特征,即分析数据的集中位置、分散程度和数据分布等。

3.1.1 位置的度量

用来描述定量资料的集中趋势的统计量常用的有均值、众数、中位数、百分数等。

1. 均值

在R语言中,可用mean()函数计算样本的均值,函数为:
mean(x, trim = 0, na.rm = FALSE)
其中x是对象(如向量、矩阵、数组或数据框),trim时在计算均值前去掉x两端观察者的比例,默认值为0,即包含全部数据;当na.rm = TRUE时,允许数据中有缺失数据,函数的返回值是对象的均值。
例如:
> w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
> mean(w)
[1] 62.36
如果数据中,某些数据是异常值,就不能简单的用mean(w)计算样本均值,如果一个数值是750,则计算的结果必然不是真实值,例如:
> w[1]<-750
> mean(w)
[1] 107.36
所以这个时候mean函数中的trim参数就起到了作用:
(python也有类似的功能,from scipy import stats; trim_mean(a, proportiontocut, axis=0);proportiontocut的功能和R的mean函数的trim的功能类似)
> mean(w, trim=0.1)
[1] 62.53846
其中trim的取值在0到0.5之间,表示在计算均值前需要去掉异常值的比例,利用这个参数可以有效地改善异常值对计算是影响。
na.rm是控制缺失数据的参数,例如:
> w
[1] 75.0 64.0 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64.0 57.0
[12] 69.0 56.9 50.0 NA
> mean(w)
[1] NA
选用参数na.rm=TRUE可以很好地处理这个问题
> mean(w, na.rm=TRUE)
[1] 61.67143

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值