如何对hbase数据做离线统计_用R对连续数据做描述统计

0e7005529c3c7c0379f6bdae25f38148.png

用R做基本描述统计,可选的函数很多,反而显得不那么直接。挑选着学习几个好用的能满足日常分析需求即可。

函数使用

自带summary()pastecs包stat.desc() 案例数据employee雇员数据,后台回复【雇员】下载数据自由练习。 380e08d38c80f1c713bdbc6d0b96b827.png 练习1对整个数据集进行描述统计。
summary(employee)
结果: 53c1dbbdf7f37a51a21cd5038fc24085.png显然这并不是我们想要的,一些分类变量并不适合用summary函数。 练习2指定单一变量做描述统计
summary(employee["salary"])
结果: 5771290b34a5c1b73ee5307fccd29e60.png 练习3指定多个变量做描述统计
summary(employee[c("salary","salbegin")])
结果: 1d5ef276b057dde901e6bcc5ae007dc1.png 练习4指定多个变量做描述统计
stat.desc(employee[c("salbegin","salary")],norm = T)
结果: 9f6f65605a270a4779f8648d4a1951e1.pngstat.desc()函数使用格式为:stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95) 55a94b4b598f2590e0a31c97c4adf3e2.png其中的x是一个数据框或时间序列。若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。若desc=TRUE(默认值),则计算中位数、平均数、平均数的标准误、平均数95%的置信区间、方差、标准差以及变异系数。若norm=F(默认值),则不返回正态分布统计量,包括偏度和峰度(以及它们的统计显著程度)和Shapiro–Wilk正态检验结果。 本文完 文/图=数据小兵 更多R统计文章 ggplot2统计图形:常见的4种箱线图 ggplot2统计图形:常见的4种直方图 按列索引按列名称删除指定的列数据 R语言Levene方差齐次检验 谁说菜鸟不会数据分析(R语言篇) table函数:分类数据的频数与频率统计 jiebaR包中文分词及词云制作 R语言带文字标签的散点图 如何获取R自带数据集与R包数据集说明文档? 如何修改R数据框的列名称? 二元正态分布及双变量相关分析简单案例演示 R语言相关系数、显著性检验及可视化的尝试 用散点图法判断变量之间是否存在线性关系 ggplot2统计图形:常见的4种散点图 R语言scale()函数实现数据标准化 用R语言做单因素方差分析及多重比较 用R语言自动智能化创建时间序列ARIMA模型 SPSS完不成主成分分析,那就换R语言实现全过程吧
9dc2d0bc27b8f53768ccf84465ddd208.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值