一、windows端的原始数据处理
首先要明白为了提高测序效率,需要把不同的文库合并到一起进行测序,为了区分不同文库的不同样本,加了不同I5用以区分文库,加了不同I7用区分不同样本。
- 我们这边红色框选部分是I5,蓝色框选部分是I7
因提高测序效率和数据量上限的关系,不同的文库可能被分到不同的Lane中,所以对于分到不同Lane中的数据要分开拆分再进行合并,以下以此为例:
131在Lane1中有44%的数据量和Lane2中有13%的数据量(一般MU21的的数据量总和在50%-60%左右,不排除个别特殊情况),因为131文库存在合并操作,下面操作以此为例。
为了满足拆分数据的格式,需要对条码信息的数据进行初步的整理,保证数据能满足以下条件:
- 找到对应的sample sheet文件(此处为131在Lane1和Lane2中分别有一部分);
- 样本条码后加LA“n”表示在那一条Lane上为后面合并做依据,黄色部分是需要的,要保证样本条码在第三列,I7+I5在第五列(测数据是I5+I7,拆分数据是I7+I5);
- Lane2的131同理操作。
二、linux端数据的拆分与合并
- 使用Xshell登陆
- 创建文件夹project/MU21/MU21O-131/fastq
MU21O:代表MU21-old
mkdir project
cd project
mkdir MU21
cd MU21
mkdir MU21O-131
cd MU21O-131
mkdir fastq
cd fastq
- 在fastq文件夹下建一个sam_MU*索引文件,将样本条码(第三列)和I7+I5(第五列)粘贴进去
cat > sam_MU21O-131
1020201018120 1020201018120LA1 CTGGAGCG+ATGTATAG
1372010170158 1372010170158LA1 CGCTGTAG+ATGTATAG
- 找到对应的Lane结果
- 软连接到fastq文件夹下面(R1、R2代表read1、read2)
ln -s /data/qiny/rawdata/201112_X-TEN/MU21-130-131_Lane3_RSJCX2011060009_LaneBarcode16_undetermined_data/Undetermined_S0_L003_R1_001.fastq.gz
ln -s /data/qiny/rawdata/201112_X-TEN/MU21-130-131_Lane3_RSJCX2011060009_LaneBarcode16_undetermined_data/Undetermined_S0_L003_R2_001.fastq.gz
- 以sam_MU*文件为索引,建立在不同的Lane(.fastq.gz n)中的pbs拆分脚本
sh /data/qiny/pipeline/basecalling/split_data.sh Undetermined_S0_L003_R1_001.fastq.gz 1
sh /data/qiny/pipeline/basecalling/split_data.sh Undetermined_S0_L003_R2_001.fastq.gz 2
建立脚本后fastq内文件如下
运行拆分脚本
sh runsam_MU21O-131.1.pbs
运行正常页面如下:
每个样本都会生成一个.fastq.gz的文件
- 同样步骤完成Lane2之后,运行combine_sample_LA.pl将LA1与LA2合并,并删LA1与LA2
perl /data/qiny/pipeline/basecalling/combine_sample_LA.pl
三、QC(质控)
此步QC仅是对数据量的统计,不删除任何数据
- 删除软连接文件(因为 *.fastq.gz被进行下一步运算,软连接文件过大,耗费资源过多)
rm Undetermined_S0_L003_R*
删除内容:
- 对 *.fastq.gz的文件生成用于QC的pbs文件
sh /data/qiny/pipeline/basecalling/runQC.sh MU21O-131
运行结果:
- 运行pbs文件
运行单个
qsub runs1372010170158_1.fastq.gz.pbs
运行所有
sh run.sh
四、SNP and Indel
- 下载MU21的CFG文件
并使用notepad++修改sample文件
整理样本名为“S+样本编号+空格”
修改文库名及样本名
修改后的 *.CFG文件和 *.SH文件,上传至MU21O-131文件夹下
- 运行 *.cfg文件,建立out文件夹、子文件夹、批量提交文件(01_pbs.sh)、callsnv文件(02_callsnv.pbs)和删除短序列等
sh exome_pipe_mu21.sy210.sh sample.MU21.sy210.cfg
运行完成后会在MUO-131下多一个out文件夹
- 进入out/code文件夹,QC结束后运行01_pbs.sh文件,结束后运行02_callsnv.pbs
cd out/code/
sh 01_pbs.sh
sh 02_callsnv.pbs
结果会显示在out下的05和06文件夹
发送到群里的文件如下: