r语言提取列名_玩转数据处理120题之P81-P100（R语言tidyverse版本）

最新推荐文章于 2023-01-06 22:05:26 发布

weixin_39905695

最新推荐文章于 2023-01-06 22:05:26 发布

阅读量296

点赞数

文章标签： r语言提取列名

这是该系列的第四篇，第一、二、三篇见：

张敬信：玩转数据处理120题之P1-P20（R语言tidyverse版本）zhuanlan.zhihu.com

张敬信：玩转数据处理120题之P21-P50（R语言tidyverse版本）zhuanlan.zhihu.com

张敬信：玩转数据处理120题之P51-P80（R语言tidyverse版本）zhuanlan.zhihu.com

本篇是P81-P100. 为了节省版面，输出结果只截取前10个观测。

题目81（加载查看包）：加载并查看tidyverse包版本

难度：★

代码及运行结果：

library(tidyverse)

题目82（生成随机数）：生成20个0~100的随机数，创建数据框

难度：★

代码及运行结果：

set.seed(123)                # 保证结果出现
df1 = tibble(nums = sample.int(100, 20))
df1

题目83（生成等差数）：生成20个0~100固定步长的数，创建数据框

难度：★

代码及运行结果：

df2 = tibble(nums = seq(0, 99, by = 5))
df2

题目84（生成指定分布随机数）：生成20个标准正态分布的随机数，创建数据框

难度：★

代码及运行结果：

set.seed(111)
df3 = tibble(nums = rnorm(20, 0, 1))
df3

题目85（合并数据）：将df1, df2, df3按行合并为新数据框

难度：★

代码及运行结果：

bind_rows(df1, df2, df3)

题目86（合并数据）：将df1, df2, df3按列合并为新数据框

难度：★

代码及运行结果：

df = bind_cols(df1, df2, df3)
df

题目87（查看数据）：查看df所有数据的最小值、25%分位数、中位数、75%分位数、最大值

难度：★★

代码及运行结果：

unlist(df) %>% 
  summary()

题目88（修改列名）：修改列名为col1, col2, col3

难度：★

代码及运行结果：

df = df %>% 
  set_names(str_c("col", 1:3))
df

注：若只修改个别列名，用rename(newname=oldname).

题目89（数据操作）：提取在第1列中而不在第2列中的数

难度：★★

代码及运行结果：

setdiff(df$col1, df$col2)

题目90（数据操作）：提取在第1列和第2列出现频率最高的三个数字

难度：★★★

代码及运行结果：

tibble(nums = c(df$col1, df$col2)) %>% 
  group_by(nums) %>% 
  summarise(frq = n()) %>% 
  arrange(desc(frq)) %>% 
  slice(1:3)

或者用

c(df$col1, df$col2) %>% 
  table() %>% 
  sort(decreasing = TRUE) %>% 
  .[1:3]

或者用

rlt = tibble(nums = c(df$col1, df$col2)) %>%
  sjmisc::frq(nums, sort.frq = "desc") 
 
rlt[[1]][1:3,]

题目91（数据操作）：提取第1列可以整除5的数的位置

难度：★★

代码及运行结果：

which(df$col1 %% 5 == 0)

题目92（数据计算）：计算第1列的1阶差分

难度：★★

代码及运行结果：

df %>% 
  mutate(diff1 = col1 - lag(col1))

注：若只是要数值，用diff(df$col1)即可。

题目93（数据操作）：将col1, col2, col3三列顺序颠倒

难度：★★

代码及运行结果：

df %>% 
  select(rev(names(df)))

注：更灵活的调整列序，dplyr1.0将提供relocate()函数。

题目94（数据操作）：提取第一列位置在1,10,15的数

难度：★

代码及运行结果：

df[c(1,10,15),1]

或者用

df %>% 
  select(col1) %>% 
  slice(1,10,15)

题目95（数据操作）：查找第一列的局部最大值位置

难度：★★★★

代码及运行结果：

rlt = df %>% 
  mutate(diff = sign(col1 - lag(col1)) + sign(col1 - lead(col1))) 
 
which(rlt$diff == 2)

题目96（数据计算）：按行计算df每一行的均值

难度：★★

代码及运行结果：

rowMeans(df)    # 或者 apply(df, 1, mean)

题目97（数据计算）：对第二列计算步长为3的移动平均值

难度：★★★

代码及运行结果：

df %>%
  mutate(avg_3 = tsibble::slide_dbl(col2, mean, .size = 3, .align = "center"))

题目98（数据计算）：按第三列值的大小升序排列

难度：★★

代码及运行结果：

df %>% 
  arrange(col3)

题目99（数据操作）：按第一列大于50的数修改为"高"

难度：★★

代码及运行结果：

df %>% 
  mutate(col1 = sjmisc::rec(col1, rec = "50:max=高; else=copy"))
# 或者用 df[df$col1 > 50, 1] = "高"

注：这里采用更有实用价值的重新编码。

题目100（数据计算）：计算第一列与第二列的欧氏距离

难度：★★★

代码及运行结果：

dist(t(df[,1:2]))

参考文献

遥遥无期：玩转数据处理120题|Pandas版本zhuanlan.zhihu.com

版权声明：原创作品，欢迎转载，请注明出处，禁止用于出版。

weixin_39905695

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
r语言提取列名_玩转数据处理120题之P81-P100（R语言tidyverse版本）

这是该系列的第四篇，第一、二、三篇见：张敬信：玩转数据处理120题之P1-P20（R语言tidyverse版本）zhuanlan.zhihu.com张敬信：玩转数据处理120题之P21-P50（R语言tidyverse版本）zhuanlan.zhihu.com张敬信：玩转数据处理120题之P51-P80（R语言tidyverse版本）zhuanlan.zhihu.com本篇是P81-P100...
复制链接

扫一扫