dplyr包中的汇总函数n,mean,median等配合summarize和group_by

最新推荐文章于 2024-07-08 18:08:00 发布

夏烬1030

最新推荐文章于 2024-07-08 18:08:00 发布

阅读量299

点赞数 5

分类专栏： R语言文章标签： r语言

本文链接：https://blog.csdn.net/MarkYang1030/article/details/138327257

版权

15 篇文章 0 订阅

订阅专栏

在之前的文章中，我提到过dplyr中有一个summarize函数。今天我们来说一下，到底可以汇总哪些信息。
dplyr整理数据

一、简介

以上很多x都可以换成逻辑值比如说:count(x$某一列 > 10)

用的还是上次的flights数据集。

直接统计flights数据集的个数

summarise(flights,n())

结果如下：在这里插入图片描述

# 先筛选出没有取消的航班（即去除NA值）
not_cancelled <- flights %>% filter(!is.na(dep_delay),!is.na(arr_delay))
# 按照dest统计航班的数量
not_cancelled %>% count(dest)

结果如下：
在这里插入图片描述

count这个函数如果在加一个wt参数，就可以做sum计算。比如说:
count(x,wt=y)
这就等于按照x进行分组，同时对y进行求和。

not_cancelled %>% count(tailnum,wt=distance)

在这里插入图片描述

summarize函数和group_by结合往往能进行更具有意义的分析。
比如我们想分析不同航班的平均dep_delay：

flights %>% group_by(carrier)%>% summarize(n=n(),meanDepdelay=mean(dep_delay,na.rm = TRUE))

在这里插入图片描述

关注