我之前写过一篇批量读取Excel数据的,代码比较原始和啰嗦:
张敬信:【Matlab/R语言】批量读入Excel文件zhuanlan.zhihu.com近年来,R语言技术突飞猛进,再来一篇更简洁高级的。
批量读取并合并,道理很简单,总共分三步:
(1) 获取批量数据文件的路径
(2) 循环机制批量读取
(3) 合并成一个数据文件
强大的purrr包+管道,使得后两步可以同时做,或者一气呵成。
载入R包:
library
以xlsx文件为例,如果是xls文件,改用read_xls()函数即可,或者不区分,直接用read_excel()也行。
将合并后的数据写出到 Excel :
write_xlsx
一. 多个数据表列名相同
这是最常见的情形,读取+按行堆叠合并,即可得到总的数据表。再分两种情况讨论:
- 数据在多个工作簿(即多个xlsx文件)
比如,在datas文件夹下有3个xlsx文件,每个文件的列名都是相同的:
files
注1:数据文件名可以随便,不需要规律命名。
注2:数据文件甚至可以嵌套多层文件夹,只需要设置参数 recursive = TRUE.
2. 数据在一个工作簿的多个工作表(1个xlsx文件,包含多个sheet)
还是上述数据,只是都在 “1-3月提奖额.xlsx ”中:
path
结果同上。
注:同样,各个sheet可以随便起名,不需要规律命名。
二. 多个数据表列名不同
都是同样的批量读取,但合并时不能只是简单的按行堆叠,而是需要做数据连接(join),得到总的数据表。也分两种情况讨论:
- 数据在多个工作簿(即多个xlsx文件)
比如,datas 文件夹下有3个xlsx文件:
注意,3个数据表中的人名是有重复的,所以不能简单按行堆叠。
实际上,这是将所有信息都合并到一起,即做全连接。又因为是多表依次做连接,再结合 reduce() 就能实现。
files
2. 数据在一个工作簿的多个工作表(1个xlsx文件,包含多个sheet)
还是上述数据,只是都在 “3-5月业绩.xlsx ”中:
path
结果同上。
————————————
原创作品,转载请注明。