在下载TCGA数据过程中,有很多小伙伴参考这个教程:TCGA数据分析(1),TCGA数据分析 (3),进行数据处理时,会出现很多0kb的文件。
前两行0kb文件,多数是下载不稳定,出现问题。
中间两行的文件,是我们最终需要的文件。
后两行0kb,是因为代码的问题!代码将原来数据文件夹下,logs目录下未下载完成的文件也copy出来了。
现在重修改了这部分代码,基本上不会再出现0KB文件的情况了;而且还可以利用R代码进行解压,无需自己手动处理。
#获取当前工作目录
getwd()
#新建文件夹all,将所有样本文件夹中的压缩数据移动到all文件夹下
if (!file.exists('all')) {
dir.create('all')
}
#获取当前路径下的一级目录,不会深入到数据文件夹下其他目录
#就是因为这个原因,导致之前很多logs/下0KB的数据被copy到
#all文件夹下,覆盖了之前的正常数据
i
#copy数据至all路径下
for (n in i) {
x.path = paste(n, list.files(n), sep = '/')
if (n != "./all") {
file.copy(x.path, './all')
}
}
#解压文件
library(R.utils)
wdir = paste(getwd(), "all", sep = "/")
setwd(wdir)
i = 1
for (file in list.files(pattern = "*.gz")) {
print(paste0(file, "正在解压文件..."))
gunzip(file, remove = T)
print(paste0("已经解压完成 ", paste0(i, " 个!")))
i = i + 1
}
以上解压的同时,会删除当前目录下的压缩文件。如果电脑性能不佳,不建议用R语言进行解压,手动解压的速度会更好。
这里非常感谢B站粉丝们,和QQ群粉丝们反馈,要不然我也一直不会在意这个问题。