SOAPdenovo2使用过程中最重要的一步是配置文件中参数的设置。下面以一个配置文件为例进行介绍
#创建空的配置文件
touch config_file
vim config_file
#输入配置文件参数
max_rd_len=150 #最大的read长度,可以根据fastqc得到。
[LIB]
avg_ins=350 #文库平均插入长度(或取插入大小分布图中的峰值位置),根据建库情况设置。
reverse_seq=0 #序列是否需要反转,PE(插入片段小于1kb)测序不需要,设为0,SE(插入片段在2kb-5kb)测序需要,设为1.
asm_flags=3 #1:表示只组装contig,2:表示只组装scaffold,3:表示同时组装contig和scaffold,4:表示只补gap。
rd_len_cutoff=150 #作用跟max_rd_len相同,大于该长度的序列会被切除至该长度,一般该参数不用。
rank=1 #如果建库时候建了多个不同大小的插入片段文库,需设不同rank跑。对于短片段设为1。
pair_num_cutoff=3 #至少有几对reads支持才可连接contig构建scaffold,小片段为3、大片段为5。
map_len=32 #对于pair-end,默认为32,对于mate-pair,默认为35。
#一对fastq文件
q1=/genome_assembly/clean_data/PB-501_BDSW192002279-1a_1.clean.fq.gz
q2=/genome_assembly/clean_data/PB-501_BDSW192002279-1a_2.clean.fq.gz
#正式组装(kmer选103,113,123,127分别跑)
#SOAPdenovo2既可以一步组装也可以分四步,如果基因组大且复杂建议分四步。
nohup ./tools/SOAPdenovo2-master/SOAPdenovo-127mer all -s config_file -d 1 -R -F -K 113 -p 60 -o PB_501_113 > PB_501_113.log & #注:加nohup和&是为了让它在后台运行(防止远程连接断开程序停止)
组装结果统计
参考来源:
基因组组装----SOAPdenovo2 - 简书 (jianshu.com)