1、从TCGA上下载癌症相关数据到rawdata,下载一般用TCGA_gdc-client。以原始的Seq-count为例。
gdc-client download -m gdc_manifest_20200923_032916.txt -d path/to/gz_file
2、加入cart之后下载manifest.json文件。(PS:这个文件真的无比讨厌,处理起来很费经)
3、将数据解压缩之后生成看起来像乱码的文件夹。此时利用perl脚本将这每个文件夹中的文件放入另外一个file文件夹当中,然后将文件名改成data_in_one便于识别。
###将所有压缩文件移到一个名为files的文件里面
###用法为cmd perl 1.move_gzFileToFiles.pl
use strict;
use warnings;
use File::Copy;
my $newDir="files";
unless(-d $newDir)
{
mkdir $newDir or die $!;
}
my @allFiles=glob("*");
foreach my $subDir(@allFiles)
{
if((-d $subDir) && ($subDir ne $newDir))
{
opendir(SUB,"./$subDir") or die $!;
while(my $file=readdir(SUB))
{
if($file=~/\.gz$/)
{