在r中rowsums_【R语言新书】2.5 数据操作

最新推荐文章于 2022-08-20 07:12:07 发布

weixin_39883433

最新推荐文章于 2022-08-20 07:12:07 发布

阅读量1.6k

点赞数

文章标签：在r中rowsums 设计sample语言的语法

张敬信：《R语言编程—基于tidyverse》新书信息汇总zhuanlan.zhihu.com

用 dplyr 包实现各种数据操作，通常的数据操作无论多么复杂，往往都可以分解为若干基本数据操作步骤的组合。

共有 5 种基本数据操作：

这些函数都可以与

连用，以改变数据操作的作用域：作用在整个数据框，或数据框的每个分组。

这些函数组合使用就足以完成各种数据操作，它们的相同之处是：

从而，可以方便地实现："将多个简单操作，依次用管道连接，实现复杂的数据操

作"。

另外，若要同时对所选择的多列应用函数，还有强大的 across() 函数，它支持各种选择列语法，搭配 mutate() 和 summarise() 使用，产生非常强大同时修改/汇总多列的效果。

选择列，包括对数据框做选择列、调整列序、重命名列。

下面以虚拟的学生成绩数据来演示，包含随机生成的 20 个 NA：

df = read_xlsx("datas/ExamDatas_NAs.xlsx")
df

1. 选择列语法

(1) 用列名或索引选择列

df %>%
  select(name, sex, math) # 或者select(2, 3, 5)

(2) 借助运算符选择列

(3) 借助选择助手函数

选择指定列：

选择列名匹配的列：

结合函数选择列：

2. 一些选择列的示例

df %>%
  select(starts_with("m"))

df %>%
  select(ends_with("e"))

df %>%
  select(contains("a"))

df %>%
  select(matches("m.*a"))

df %>%
  select(where(is.numeric))

也可以自定义返回 TURE 或 FALSE 的判断函数，支持 purrr 风格公式写法。例如，选择列和 > 3000 的列：

df[, 4:8] %>%
  select(where(~ sum(.x, na.rm = TRUE) > 3000))

再比如，结合 n_distinct() 选择唯一值数目 < 10 的列：

df %>%
  select(where(~ n_distinct(.x) < 10))

3. 用 - 删除列

df %>%
  select(-c(name, chinese, science)) # 或者select(-ends_with("e"))

df %>%
  select(math, everything(), -ends_with("e"))

关注