项目一：使用二代测序数据进行基因组组装（局部组装）

最新推荐文章于 2022-11-14 21:00:42 发布

爱不到要偷

最新推荐文章于 2022-11-14 21:00:42 发布

阅读量1.1k

点赞数

文章标签： awk shell

原文链接：http://www.cnblogs.com/leezx/p/5601487.html

版权

项目数据：

kongyu_131_PCRfree_.CCAAT_L006_R1_001.fastq.gz （100X）（19G）
kongyu_131_PCRfree_.CCAAT_L006_R2_001.fastq.gz （100X）（20G）
Y255_PCRfree_.TCCGC_L005_R1_001.fastq.gz （30X）（5.4G）
Y255_PCRfree_.TCCGC_L005_R2_001.fastq.gz （30X）（6.0G）
all.chrs.con.fasta （364M）日本晴 ( /public/genome/rice/msu/version_7.0/all.dir/all.chrs.con.fasta)

工具：

策略：

将测序的二代reads使用BWA比对到参考基因组，分成不同的窗口，按窗口进行局部组装，然后合并。

预备知识：

能用熟练使用 Perl 和 shell 写脚本
会熟练使用 PBS 提交任务
BWA使用方法
IGV使用方法
SOAPdenovo使用方法

具体步骤:

1.前期准备

NP=`cat $PBS_NODEFILE | wc -l`
NN=`cat $PBS_NODEFILE | sort -u | wc -l`

cd $PBS_O_WORKDIR
export LD_LIBRARY_PATH=\$LD_LIBRARY_PATH:/public/software/htslib-1.3/lib
date

samtoolsdir=/public/software/samtools-1.3/bin
bwadir=/public/software/bwa-0.7.12-intel
dir=/public/scripts/liyan/scripts2016

sample=Y255
out=/public/home/zxli/Project/Project_Sliced_Assembly

ref=/public/genome/rice/msu/version_7.0/all.dir/all.chrs.con.fasta
fq1=/public/home/zxli/data/rice/Y255_PCRfree_.TCCGC_L005_R1_001.fastq.gz
fq2=/public/home/zxli/data/rice/Y255_PCRfree_.TCCGC_L005_R2_001.fastq.gz

2.比对

/public/software/bwa-0.7.12-intel/bwa index $ref
$bwadir/bwa mem -t $NP -f -M -R "@RG\tID:$sample\tLB:$sample\tSM:$sample\tPL:illumina\tPU:$sample" $ref $fq1 $fq2 > $out/bwamem_$sample.sam
date

3.可视化的前处理

samtools view -@ 10 -bS -F 4 ./contigs_sequence_align_to_public_genome.sam > ./contigs_sequence_align_to_public_genome.bam

samtools sort -@ 10 ./contigs_sequence_align_to_public_genome.bam contigs_sequence_align_to_public_genome.sorted

samtools index contigs_sequence_align_to_public_genome.sorted.bam contigs_sequence_align_to_public_genome.sorted.bai

samtools depth contigs_sequence_align_to_public_genome.sorted.bam >depth_reads.txt

wc -l depth_reads.txt > Coverage-aln_reads.txt

$samtoolsdir/samtools view -@ $NP -Sb $out/bwamem_$sample.sam -o $out/bwamem_$sample.bam
$samtoolsdir/samtools sort -@ $NP $out/bwamem_$sample.bam -o $out/bwamem_$sample.sorted.bam
$samtoolsdir/samtools index $out/bwamem_$sample.sorted.bam

4.按窗口分类reads

写perl脚本，提取SAM中的reads名称，去fastQ里提取原始reads，按窗口分类，为下一步的局部组装做准备。

5.局部组装

局部组装的问题：

已经有两批人没组出来了，局部组装大多不可能组装出完整的100K窗口，因为二代序列reads太短，重复序列太多，重复序列会导致连接中断，一个窗口会出现很多片段，而且也没有方法将其继续连接起来，所以他们都半途而废了。

后续可能会遇到的情况，必须借助后期的分析手段，将诸多片段连接成完整的序列。

杜发的文章，完全是在无参考基因组的情况下，denovo组装，利用多种手段，才将零碎的序列组装成完整的基因组。

其他:

PCRfree,就是DNA样品不是通过PCR进行扩增的,防止PCR中的错误造成影响.

map,就是确定基因在染色体中的位置.

众多软件都可以利用 fastq.gz 文件, less也可以查看此类型的文件.

问题:

fastq文件里都有些什么? 参见 fastQ格式

简介:fastQ是二代测序下机数据的格式, 它存储了核酸序列和相应质量评价的信息,该格式包含四行:

第一行: @HWUSI-EAS100R:6:73:941:1973#0/1 ; 以@开头，后面是reads的ID以及其他信息，例如上例中 HWUSI-EAS100R代表Illmina设备名称，6代表flowcell中的第六个lane，73代表第六个lane中的第73个 tile，941:1973代表该read在该tile中的x：y坐标信息；#0，若为多样本的混合作为输入样本，则该标志代表样本的编号，用来区分个样本中的reads；/1代表paired end中的前一个read。

第二行: GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT ; read序列

第三行: +HWUSI-EAS100R:6:73:941:1973#0/1 ; 以“+”开头，跟随者该read的名称（一般于@后面的内容相同），但有时可以省略，但“+”一定不能省。

第四行: !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6 ; 以“+”开头，跟随者该read的名称（一般于@后面的内容相同），但有时可以省略，但“+”一定不能省。

本项目中的原始reads格式如下: (每条read均为150 bp)

@ST-E00126:176:HL7H5CCXX:1:1101:23368:6319 1:N:0:GTCCGC
TATCGCTTGCTCAAACGCTGGGCAACTAGTCTCTAGTCTTGGTCGAGTGTGTGGTGGACTTGGTCGTGGACATGCTTGGTTCTTAGATCGTGTTTTGTATTCAGGGTTGCTTGTACCCTTTCTTTCTTGCACTGTCCATATTCTAATGCA
+
AAAAFKKFKKKKKKKKKKKKKKKKKKKKKKKFFKKKKKKKKKKKKFAFKK,,FKK,A<F<KAFKKKFKKKFKKKKKKKFKF<,,,AKKKKFK,FFKKKKKKFA<KK7<,<<,,7<AFFFKKKAFFKKKKKKK77FFA,,<FKKKKAAFAF

补充：双端测序时，fastq文件中，R1 和 R2 两个文件中的reads是如何排列的？

R1
@ST-E00126:176:HL7H5CCXX:1:1101:7638:1221 1:N:0:NTCCGC
@ST-E00126:176:HL7H5CCXX:1:1101:8572:1221 1:N:0:NTCCGC
R2
@ST-E00126:176:HL7H5CCXX:1:1101:7638:1221 2:N:0:NTCCGC
@ST-E00126:176:HL7H5CCXX:1:1101:8572:1221 2:N:0:NTCCGC

参考基因组（）是个什么玩意?

>Chr1
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
CTAAACCCTAAACCCTAAACCCTAAACCCTAAACCCTAAACCCTAAACCC
TAAACCCTAACCCTAAACCCTAACCCTAAACCCTAAACCCTAAACCCTAA
ACCCTAAACCCTAAACAGCTGACAGTACGATAGATCCACGCGAGAGGAAC
CGGAGAGACAACGGGATCCAGGCGCCAGCGACGGATCCGGGCGAGAGGGG
AGTGGAGATCATGGATCCGTGCGGGAGGGGAAGAAGTCGCCGAATCCGAC

......

chr1一共有865419行, 每一行50个碱基, 最后一行23个碱基, 一共43270923个碱基, 约为43Mb.

该染色体的头部尾部以及中间有少量的NNNN组成的gap, 是没有组装出来的区域.

水稻基因组基本常识? 参见水稻基因组计划(百科)

分籼、粳稻两个亚种, 一共12对染色体, 基因组大小:430Mb, 预测有32000～56000个基因,

BWA 比对的原理, 以及之后生成的 SAM 文件该如何解读, SAM格式是如何存储比对信息的?

额外参考：

[Perl] Getopt 函数来接收用户参数的使用

awk命令

转载于:https://www.cnblogs.com/leezx/p/5601487.html

爱不到要偷

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
项目一：使用二代测序数据进行基因组组装（局部组装）

项目数据： kongyu_131_PCRfree_.CCAAT_L006_R1_001.fastq.gz （100X）（19G） kongyu_131_PCRfree_.CCAAT_L006_R2_001.fastq.gz （100X）（20G） Y255_PCRfree_.TCCGC_L005_R1_001.fastq.gz （30X）（5.4G） Y255_...
复制链接

扫一扫