用R做基本描述统计,可选的函数很多,反而显得不那么直接。挑选着学习几个好用的能满足日常分析需求即可。
函数使用
自带summary()pastecs包stat.desc() 案例数据employee雇员数据,后台回复【雇员】下载数据自由练习。 练习1对整个数据集进行描述统计。summary(employee)
结果:
显然这并不是我们想要的,一些分类变量并不适合用summary函数。
练习2指定单一变量做描述统计
summary(employee["salary"])
结果:
练习3指定多个变量做描述统计
summary(employee[c("salary","salbegin")])
结果:
练习4指定多个变量做描述统计
stat.desc(employee[c("salbegin","salary")],norm = T)
结果:
stat.desc()函数使用格式为:stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
其中的x是一个数据框或时间序列。若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。若desc=TRUE(默认值),则计算中位数、平均数、平均数的标准误、平均数95%的置信区间、方差、标准差以及变异系数。若norm=F(默认值),则不返回正态分布统计量,包括偏度和峰度(以及它们的统计显著程度)和Shapiro–Wilk正态检验结果。
本文完
文/图=数据小兵
更多R统计文章
ggplot2统计图形:常见的4种箱线图
ggplot2统计图形:常见的4种直方图
按列索引按列名称删除指定的列数据
R语言Levene方差齐次检验
谁说菜鸟不会数据分析(R语言篇)
table函数:分类数据的频数与频率统计
jiebaR包中文分词及词云制作
R语言带文字标签的散点图
如何获取R自带数据集与R包数据集说明文档?
如何修改R数据框的列名称?
二元正态分布及双变量相关分析简单案例演示
R语言相关系数、显著性检验及可视化的尝试
用散点图法判断变量之间是否存在线性关系
ggplot2统计图形:常见的4种散点图
R语言scale()函数实现数据标准化
用R语言做单因素方差分析及多重比较
用R语言自动智能化创建时间序列ARIMA模型
SPSS完不成主成分分析,那就换R语言实现全过程吧