R（12）：第三章：3.1描述统计量

最新推荐文章于 2023-01-04 18:30:58 发布

genome_denovo

最新推荐文章于 2023-01-04 18:30:58 发布

阅读量2k

点赞数 1

分类专栏： R 文章标签： R数据描述性分析

本文链接：https://blog.csdn.net/genome_denovo/article/details/82469044

版权

《统计建模与R软件》薛毅

总结：3.1 节总结
均值计算，mean(x, trim = 0, na.rm = FALSE)，x是向量，trim去除偏差值，na.rm去除NA值；顺序统计量(排序)，sort；中位数median()；百分比quantile()，上四分位，下四分位；记住脚本函数data_outline.R，里面包含本节所有计算函数。

第3章数据描述性分析

统计分析分为统计描述和统计推断两个部分，统计描述是通过绘制统计图、编制统计表、计算统计量等方法来表述数据的分布特征。

3.1 描述统计量

要研究数据的数字特征，即分析数据的集中位置、分散程度和数据分布等。

3.1.1 位置的度量

用来描述定量资料的集中趋势的统计量常用的有均值、众数、中位数、百分数等。

1. 均值

在R语言中，可用mean()函数计算样本的均值，函数为：
mean(x, trim = 0, na.rm = FALSE)
其中x是对象（如向量、矩阵、数组或数据框），trim时在计算均值前去掉x两端观察者的比例，默认值为0，即包含全部数据；当na.rm = TRUE时，允许数据中有缺失数据，函数的返回值是对象的均值。
例如：
> w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
> mean(w)
[1] 62.36
如果数据中，某些数据是异常值，就不能简单的用mean(w)计算样本均值，如果一个数值是750，则计算的结果必然不是真实值，例如：
> w[1]<-750
> mean(w)
[1] 107.36
所以这个时候mean函数中的trim参数就起到了作用：
(python也有类似的功能，from scipy import stats; trim_mean(a, proportiontocut, axis=0)；proportiontocut的功能和R的mean函数的trim的功能类似）
> mean(w, trim=0.1)
[1] 62.53846
其中trim的取值在0到0.5之间，表示在计算均值前需要去掉异常值的比例，利用这个参数可以有效地改善异常值对计算是影响。
na.rm是控制缺失数据的参数，例如：
> w
[1] 75.0 64.0 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64.0 57.0
[12] 69.0 56.9 50.0 NA
> mean(w)
[1] NA
选用参数na.rm=TRUE可以很好地处理这个问题
> mean(w, na.rm=TRUE)
[1] 61.67143

最低0.47元/天解锁文章

genome_denovo

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
R（12）：第三章：3.1描述统计量

《统计建模与R软件》薛毅第3章数据描述性分析统计分析分为统计描述和统计推断两个部分，统计描述是通过绘制统计图、编制统计表、计算统计量等方法来表述数据的分布特征。3.1 描述统计量要研究数据的数字特征，即分析数据的集中位置、分散程度和数据分布等。3.1.1 位置的度量用来描述定量资料的集中趋势的统计量常用的有均值、众数、中位数、百分数等。1. 均值在R语言中，可...
复制链接

扫一扫