R语言 tidyverse 之数据处理:dplyr (上)

dplyr 包提供了一系列好用的函数,用来进行数据处理和转换,掌握之后可以高效解决数据处理中的绝大多数问题,我们先来看一下 dplyr 包最核心的 5 个函数。

  • select: 筛选字段
  • filter: 按条件过滤
  • arrange: 按字段排序
  • mutate: 创建新字段
  • summarize: 数据汇总

这一章需要使用 gapminder 数据集,该数据集记录了 140 多个国家的人口、寿命、国内生产总值(gdp)等,使用前安装一下 install.packages(‘gapminder’)

library(dplyr)
library(gapminder)

gapminder

gapminder 的数据如下:
在这里插入图片描述
共有 1704 行,包括 country、continent、year、lifeExp、pop、gdpPercap 6 个字段。

1. select:筛选字段
# 筛选特定字段
select(gapminder, continent, year, pop)

# 筛选某个范围的所有字段
select(gapminder, continent:gdpPercap)

# 使用函数筛选
select(gapminder, contains('gdp'))    
select(gapminder, starts_with('co'))
select(gapminder, ends_with('p'))

# 反向筛选, 即不筛选这些字段
select(gapminder, -country)
select(gapminder, -(continent:gdpPercap))
2. filter:按条件过滤
# 单条件过滤
filter(gapminder, year == '2002')  
filter(gapminder, continent == 'Asia')

# 多条件过滤:&和逗号表示且操作,| 表示或操作
filter(gapminder, year == '2002' & continent == 'Asia')  
filter(gapminder, year == '2002' , continent == 'Asia')  
filter(gapminder, year == '2002' | continent == 'Asia')

我们把筛选字段和过滤的操作结合在一起:

# 筛选年份为 2002 的数据, 仅包含 continent、year、pop 字段
gapminder_2002 <- filter(gapminder, year == '2002')  
select(gapminder_2002, continent, year, pop)

我们定义了中间变量 gapminder_2002,便于之后的 select 操作,但实际上这个中间变量并没有多大的作用。
为了简化上述写法,提高代码的可读性,R 语言提出了管道操作符 %>%,具体用法如下:

gapminder %>%
    filter(year == '2002') %>%
    select(continent, year, pop)

这样就省略了中间变量,左侧的数据或表达式,依次传递给右侧的函数调用或表达式来运行,就像一个链条一样把所有操作都串起来,使得代码具有更好的可读性,之后的代码都将使用管道操作符来实现。

3. arrange:按字段排序
# 按照 gdpPercap字段 升序排列
gapminder %>%
    arrange(gdpPercap)

# 按照 pop 字段降序排列
gapminder %>%
    filter(year == '2002') %>%
    arrange(desc(pop))
4. mutate:创建新字段
# 新增 pop_new 字段
gapminder %>% 
    mutate(pop_new = pop / 1000000)

# 新增 gdp、avg_life_gdp 字段, 其中 gdp 可以直接在创建另一个字段时使用
gapminder %>% 
    mutate(gdp = gdpPercap * pop,
           avg_life_gdp = gdp / lifeExp)
5. summarize: 数据汇总
# 统计 lifeExp 的均值
gapminder %>%
    summarize(meanLifeExp = mean(lifeExp))

# 统计 lifeExp 的均值、pop 求和
gapminder %>%
    filter(year == '2002') %>%
    summarize(meanLifeExp = mean(lifeExp),
              totalPop = sum(pop))

其他和 summarize 可以结合使用的函数还包括最大值 max、最小值 min、中位数 median 函数等。

下一节,我们会介绍 dplyr 中的分组函数 group_by 以及其他数据处理的函数。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数分进阶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值