整体数据计算描述性统计量
summary()函数
可以使用summary()函数来获取描述性统计量
> myvars
> summary(mtcars[myvars])
mpg hp wt
Min. :10.40 Min. : 52.0 Min. :1.513
1st Qu.:15.43 1st Qu.: 96.5 1st Qu.:2.581
Median :19.20 Median :123.0 Median :3.325
Mean :20.09 Mean :146.7 Mean :3.217
3rd Qu.:22.80 3rd Qu.:180.0 3rd Qu.:3.610
Max. :33.90 Max. :335.0 Max. :5.424
可以看出summary()函数提供了每个变量的最小值,下四分数,中位数,上四分位数,最大数
sapply()函数
可以使用sapply()函数计算所选的任意描述性统计量,调用格式为
sapply(x,FUN,options)
x是选择的数据框或矩阵,FUN是一个任意的函数
#自定义函数
> mystats
+ if (na.omit)
+ x
+ m
+ n
+ s
+ skew
+ kurt
+ return(c(n=n,mean=m,stdev=s,skew=skew,kurtosis=kurt))
+ }
> sapply(mtcars[myvars],mystats)
mpg hp wt
n 32.000000 32.0000000 32.00000000
mean 20.090625 146.6875000 3.21725000
stdev 6.026948 68.5628685 0.97845744
skew 0.610655 0.7260237 0.42314646
kurtosis -0.372766 -0.1355511 -0.02271075
在上面的代码中,我们先自编了一个计算观测数,均值,标准差,偏度和峰度的函数,再用sapply()函数,将此函数应用的选择的数据框上
describe()函数
Hmisc包中的describe()函数可以返回变量和观测的数量,缺失值和唯一值的数目,平均值,分位数,以及五个最大的值和五个最小的值
> install.packages("Hmisc")
> library(Hmisc)
> describe(mtcars[myvars])
mtcars[myvars]
3 Variables 32 Observations
-------------------------------------------------------------------------------------
mpg
n missing distinct Info Mean Gmd .05 .10 .25
32 0 25 0.999 20.09 6.796 12.00 14.34 15.43
.50 .75 .90 .95
19.20 22.80 30.09 31.30
lowest : 10.4 13.3 14.3 14.7 15.0, highest: 26.0 27.3 30.4 32.4 33.9
-----------------------