dplyr包中的汇总函数n,mean,median等配合summarize和group_by

在之前的文章中,我提到过dplyr中有一个summarize函数。今天我们来说一下,到底可以汇总哪些信息。
dplyr整理数据

一、简介

汇总函数

  1. mean(x)取平均数
  2. median(x)取中位数
  3. min(x)最小数
  4. max(x)最大数
  5. quantile(x,0.25)四分位数(比数据中25%的要大,但比75%的要小)
  6. first(x)取向量x的第一个值
  7. last(x)取向量x的最后一个值
  8. nth(x,2)去向量的第2个值
  9. n() 不需要参数,返回组的大小
    10.n_distinct(x)返回向量x中有多少个独特的值
  10. count(x)是n()的增强版

以上很多x都可以换成逻辑值比如说:count(x$某一列 > 10)

例子演示

用的还是上次的flights数据集。

n()举例

直接统计flights数据集的个数

summarise(flights,n())

结果如下:在这里插入图片描述

count举例

例1:统计去往不同目的地的航班个数
# 先筛选出没有取消的航班(即去除NA值)
not_cancelled <- flights %>% filter(!is.na(dep_delay),!is.na(arr_delay))
# 按照dest统计航班的数量
not_cancelled %>% count(dest)

结果如下:
在这里插入图片描述

例2:统计不同航班的总里程数

count这个函数如果在加一个wt参数,就可以做sum计算。比如说:
count(x,wt=y)
这就等于按照x进行分组,同时对y进行求和。

not_cancelled %>% count(tailnum,wt=distance)

在这里插入图片描述

二、结合group_by函数

summarize函数和group_by结合往往能进行更具有意义的分析。
比如我们想分析不同航班的平均dep_delay:

flights %>% group_by(carrier)%>% summarize(n=n(),meanDepdelay=mean(dep_delay,na.rm = TRUE))

在这里插入图片描述

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值