测序数据的拆分、合并、质控以及callsnv

一、windows端的原始数据处理

首先要明白为了提高测序效率,需要把不同的文库合并到一起进行测序,为了区分不同文库的不同样本,加了不同I5用以区分文库,加了不同I7用区分不同样本

在这里插入图片描述

  • 我们这边红色框选部分是I5,蓝色框选部分是I7

因提高测序效率和数据量上限的关系,不同的文库可能被分到不同的Lane中,所以对于分到不同Lane中的数据要分开拆分再进行合并,以下以此为例:
在这里插入图片描述

131在Lane1中有44%的数据量和Lane2中有13%的数据量(一般MU21的的数据量总和在50%-60%左右,不排除个别特殊情况),因为131文库存在合并操作,下面操作以此为例。

为了满足拆分数据的格式,需要对条码信息的数据进行初步的整理,保证数据能满足以下条件:

  1. 找到对应的sample sheet文件(此处为131在Lane1和Lane2中分别有一部分);

在这里插入图片描述
在这里插入图片描述

  1. 样本条码后加LA“n”表示在那一条Lane上为后面合并做依据,黄色部分是需要的,要保证样本条码在第三列,I7+I5在第五列(测数据是I5+I7,拆分数据是I7+I5)
    在这里插入图片描述
  2. Lane2的131同理操作。

二、linux端数据的拆分与合并

  1. 使用Xshell登陆

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  1. 创建文件夹project/MU21/MU21O-131/fastq
    MU21O:代表MU21-old
mkdir project
cd project
mkdir MU21
cd MU21
mkdir MU21O-131
cd MU21O-131
mkdir fastq
cd fastq
  1. 在fastq文件夹下建一个sam_MU*索引文件,将样本条码(第三列)和I7+I5(第五列)粘贴进去
cat > sam_MU21O-131
	1020201018120	1020201018120LA1		CTGGAGCG+ATGTATAG
	1372010170158	1372010170158LA1		CGCTGTAG+ATGTATAG

  1. 找到对应的Lane结果
    在这里插入图片描述
  2. 软连接到fastq文件夹下面(R1、R2代表read1、read2)
ln -s /data/qiny/rawdata/201112_X-TEN/MU21-130-131_Lane3_RSJCX2011060009_LaneBarcode16_undetermined_data/Undetermined_S0_L003_R1_001.fastq.gz
ln -s /data/qiny/rawdata/201112_X-TEN/MU21-130-131_Lane3_RSJCX2011060009_LaneBarcode16_undetermined_data/Undetermined_S0_L003_R2_001.fastq.gz

在这里插入图片描述

  1. 以sam_MU*文件为索引,建立在不同的Lane(.fastq.gz n)中的pbs拆分脚本
sh /data/qiny/pipeline/basecalling/split_data.sh Undetermined_S0_L003_R1_001.fastq.gz 1
sh /data/qiny/pipeline/basecalling/split_data.sh Undetermined_S0_L003_R2_001.fastq.gz 2

建立脚本后fastq内文件如下
在这里插入图片描述
运行拆分脚本

sh runsam_MU21O-131.1.pbs

运行正常页面如下:在这里插入图片描述
每个样本都会生成一个.fastq.gz的文件在这里插入图片描述

  1. 同样步骤完成Lane2之后,运行combine_sample_LA.pl将LA1与LA2合并,并删LA1与LA2
perl /data/qiny/pipeline/basecalling/combine_sample_LA.pl

三、QC(质控)

此步QC仅是对数据量的统计,不删除任何数据

  1. 删除软连接文件(因为 *.fastq.gz被进行下一步运算,软连接文件过大,耗费资源过多)
rm Undetermined_S0_L003_R*

删除内容:在这里插入图片描述

  1. 对 *.fastq.gz的文件生成用于QC的pbs文件
sh /data/qiny/pipeline/basecalling/runQC.sh MU21O-131

运行结果:
在这里插入图片描述

  1. 运行pbs文件

运行单个

qsub runs1372010170158_1.fastq.gz.pbs

在这里插入图片描述

运行所有

sh run.sh

在这里插入图片描述

四、SNP and Indel

  1. 下载MU21的CFG文件
    在这里插入图片描述
    并使用notepad++修改sample文件

在这里插入图片描述
整理样本名为“S+样本编号+空格”在这里插入图片描述
修改文库名及样本名在这里插入图片描述
修改后的 *.CFG文件和 *.SH文件,上传至MU21O-131文件夹下在这里插入图片描述

  1. 运行 *.cfg文件,建立out文件夹、子文件夹、批量提交文件(01_pbs.sh)、callsnv文件(02_callsnv.pbs)和删除短序列等
sh exome_pipe_mu21.sy210.sh sample.MU21.sy210.cfg 

运行完成后会在MUO-131下多一个out文件夹在这里插入图片描述

  1. 进入out/code文件夹,QC结束后运行01_pbs.sh文件,结束后运行02_callsnv.pbs
cd out/code/
sh 01_pbs.sh
sh 02_callsnv.pbs

结果会显示在out下的05和06文件夹
发送到群里的文件如下:
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值