1、Varben软件是什么
VarBen是卫检委临检中心李金明老师团队学生,开发的一款NGS突变模拟软件。通过文章形式已经发表了(DOI: 10.1016/j.jmoldx.2020.11.010)。 目前在室间质评数据模拟、注册检相关的突变模拟中应用广泛。
它采用的是比对到参考基因组特定位点的测序reads进行编辑的方式来进行突变模拟,该方法可保留测序过程“湿实验”部分核酸提取、靶向捕获、文库制备以及测序过程中产生的错误分布模式,从而保证模拟数据更加的接近真实。
2、Varben下载
软件的Github官网有详细说明,github-VarBen。
wget https://github.com/nccl-jmli/VarBen/archive/master.zip
unzip master.zip
cd VarBen-master
# 配置好python2.7
python2 bin/muteditor.py -h ### 模拟小的变异:SNV、InDel、Complex variation
python2 bin/sveditor.py -h ### 模拟大的变异:SV、CNV
3、snv、indel突变模拟
对于snv、indel类型突变,无论是官网示例,还是实际模拟,均能顺利实现。
#chrom start end AF type alt
chr7 55259514 55259515 0.05 snv G
chr7 55249092 55249092 0.05 SNV C
chr21 44514769 44514769 0.4 ins TATGAG
chr21 44513300 44513302 0.35 del .
# 要求突变位点的深度最少为50X,突变支持的最小reads为5,最小等位基因频率为10%(该位置等位基因频率大于snpfrac会跳过编辑该位点)
# --snpfrac 0.1 如果你要构建突变的位置,已经实际存在突变,且突变频率>snpfrac,则该位点不进行突变模拟;
# --haplosize 10 如果两个突变间隔10bp, 则构造突变时,两个突变拥有一样的reads集合;
python muteditor.py -m mutFile.tsv -b NC.sort.bam -r ucsc.hg19.fasta -p 4 --aligner bwa --alignerIndex ucsc.hg19.fasta --seqer illumina --haplosize 10 --mindepth 50 --minmutreads 5 --snpfrac 0.1 -o repeat1
注:可以模拟的突变类型:
1、在没有发生突变的位置模拟;
2、预期位置附近有高频突变发生,默认不模拟,除非修改snpfrac参数;
3、可修改原somatic突变位置的频率,但无法对原germline突变进行模拟;
4、sv模拟(失败)
使用官网的示例可以顺利实现,但自己仿照官网构建,总是无法完成,
官网示例 wgs
#chrom start end type AF (deletion and inversion)
chrX 19975999 20064786 inv 0.6
chrX 108614726 108616334 del 0.6
#chrom start end type AF dup_num (duplication)
chr1 15808448 15814030 dup 0.6 3
#CHR1 CHR1_start CHR1_end type AF CHR2 CHR2_start CHR2_end
chr2 29754284 29754947 trans_balance 0.5 chr2 42522695 42523089
chr10 43608984 43609308 trans_unbalance 0.5 chr6 117640981 117640982
chr19 17327977 17327977 trans_chrom 0.5 chr3 186528041 186528041
/data/Apps/Production/miniconda2/bin/python /data/Software/VarBen/bin/sveditor.py -m wgs_sv_template.txt -b NA12878.CEU.low_coverage.bam -r ucsc.hg19.fasta -p 8 --alignerIndex ucsc.hg19.fasta --seqer illumina --aligner bwa --mindepth 2 --minmutreads 2 -l 101 -o sv_out
个人示例如下,trans_unbalance、trans_balance均提示格式错误,trans_chrom又无法跑通命令行。最终以抽取融合reads,追加进原有fq文件实现sv模拟。
补充下,下列融合信息为原来AN.bam实际检出的结果。
#CHR1 CHR1_start CHR1_end type AF CHR2 CHR2_start CHR2_end
chr6 135526361 135526361 trans_unbalance 0.05 chr9 14090661 14090661
/data/Apps/Production/miniconda2/bin/python /data/Software/VarBen/bin/sveditor.py -m sv_template.txt -b AN.sort.bam -r ucsc.hg19.fasta -p 8 --alignerIndex ucsc.hg19.fasta --seqer illumina --aligner bwa --mindepth 2 --minmutreads 2 -l 101 -o sv_test
欢迎知道问题点的小伙伴留言,感激不尽。