文章目录
不分亚组的描述统计
以MASS
包中的数据集birthwt
为示例。
使用向量操作计算单个变量的描述统计量
- 单个变量统计函数计算的基本语法:
统计函数(数据框$变量名)
- 关于基本统计函数的更多内容,参见这里
计算汇总了多个变量的数据框的描述统计量:sapply()
使用dplyr
包中的select
,汇总数据框中的数值型变量。为防止重名导致的混淆,包名::函数名
特指调用指定包内的函数。
> data(birthwt,package = "MASS")
> cont.vars<-dplyr::select(birthwt,age,lwt,bwt)
使用sapply(数据框名,统计函数名)
,计算该数据框内所有变量的指定描述统计结果。
> sapply(cont.vars,mean)
age lwt bwt
23.2381 129.8148 2944.5873
> sapply(cont.vars,sd)
age lwt bwt
5.298678 30.579380 729.214295
> sapply(cont.vars,min)
age lwt bwt
14 80 709
> sapply(cont.vars,max)
age lwt bwt
45 250 4990
注意变量必须全为数值型 (预先使用select()
挑选的原因)否则会报错:
> sapply(birthwt,mean)
low age lwt race
NA 23.2380952 129.8148148 NA
smoke ptl ht ui
NA 0.1957672 NA NA
ftv bwt
0.7936508 2944.5873016
Warning messages:
1: In mean.default(X[[i]], ...) : 参数不是数值也不是逻辑值:回覆NA
2: In mean.default(X[[i]], ...) : 参数不是数值也不是逻辑值:回覆NA
3: In mean.default(X[[i]], ...) : 参数不是数值也不是逻辑值:回覆NA
4: In mean.default(X[[