生信软件46 - 三代测序低深度全基因组测序结构变异SV检测工具NanoVar

1. NanoVar简介

NanoVar 是一种新颖的 SV 识别工具在准确性和速度方面表现出色,同时克服了三代测序全基因组测序(WGS)低深度和易出错的问题 。在模拟数据中, NanoVar 在仅使用 4 - 8X 覆盖度的数据集检测纯合和杂合 SV ,优于现有的 三代测序结构变异(SV)检测工具,实现了较高的 SV 检测准确率(F1​>0.92)。NanoVar 的性能在低深度真实数据(如样本 NA12878)和临床数据中也得到了体现,并可靠地推断 SV 的类别、大小和杂合性。模拟和真实数据的结果都表明,4X 测序深度可能不足以全面发现杂合 SV,建议使用 8X 或更高测序深度

参考文献:
Tham, CY., Tirado-Magallanes, R., Goh, Y. et al. NanoVar: accurate characterization of patients’ genomic structural variants using low-depth nanopore sequencing. Genome Biol. 21, 56 (2020). https://doi.org/10.1186/s13059-020-01968-7

使用NA12878标准品,在4X深度下,不同的三代SVs检测工具,检测缺失SVs时SVIM召回率最高(0.78)、nanoVar (0.71)、 Sniffles (0.58),and Picky(0.54); 对于插入SVs,nanovar召回率最高(0.66))、SVIM (0.62),、Sniffles (0.28) and Picky (0.22)。在8X深度下,nanova和SVIM召回率接近0.82。

github地址: https://github.com/benoukraflab/NanoVar

不同测序深度(4X 8X 12X)纯合/杂合SVs检测准确率和召回率:
不同测序深度纯合/杂合SVs检测准确率和召回率
2代测序和3代测序SVs检测工具比较:
2代测序和3代测序SVs检测工具比较

输出结果:
输出结果

2. 安装依赖

软件版本要求:

  • bedtools >=2.26.0
  • samtools >=1.3.0
  • minimap2 >=2.17
conda create -n nanovar -c bioconda python=3.9
conda activate nanovar

conda insatall bedtools -y
conda install samtools==1.3.0 -y
conda install minimap2==2.17 -y
conda install seqtk -y

# 安装nanovar
conda install nanovar==1.8.0 -y

3. 基本用法

# -t: 线程数
# -x: 三代测序数据类型,支持ont, pacbio-clr, pacbio-ccs
# -f: 参考基因组gap bed文件或调用内置hg19、hg38和mm10 gap bed
# sample.bam: 样本碧迪排序后BAM文件
# ref.fa: 参考基因组fasta文件
# working_dir: 工作目录

# ONT数据
nanovar -t 10 -x ont -f hg38 sample.bam ref.fa working_dir

4. 参数说明

usage: nanovar [options] [FASTQ/FASTA/BAM/CRAM] [REFERENCE_GENOME] [WORK_DIRECTORY]

positional arguments:
  [FASTQ/FASTA/BAM/CRAM]
                        Path to long reads or mapped BAM/CRAM file.
                        Formats: fasta/fa/fa.gzip/fa.gz/fastq/fq/fq.gzip/fq.gz/bam/cram
  [reference_genome]    Path to reference genome in FASTA. Genome indexes created
                        will overwrite indexes created by other aligners such as bwa.
  [work_directory]      Path to work directory. Directory will be created
                        if it does not exist.

options:
  -h, --help            show this help message and exit
  -x str, --data_type str
                        Type of long-read data [ont]
                        ont - Oxford Nanopore Technologies
                        pacbio-clr - Pacific Biosciences CLR
                        pacbio-ccs - Pacific Biosciences CCS
  -f file, --filter_bed file
                        BED file with genomic regions to be excluded [None]
                        (e.g. telomeres and centromeres) Either specify name of in-built
                        reference genome filter (i.e. hg38, hg19, mm10) or provide full
                        path to own BED file.
  --annotate_ins str    Enable annotation of INS with NanoINSight,
                        please specify species of sample [None]
                        Currently supported species are:
                        'human', 'mouse', and 'rattus'.
  -c int, --mincov int  Minimum number of reads required to call a breakend [4]
  -l int, --minlen int  Minimum length of SV to be detected [25]
  -p float, --splitpct float
                        Minimum percentage of unmapped bases within a long read
                        to be considered as a split-read. 0.05<=p<=0.50 [0.05]
  -a int, --minalign int
                        Minimum alignment length for single alignment reads [200]
  -b int, --buffer int  Nucleotide length buffer for SV breakend clustering [50]
  -s float, --score float
                        Score threshold for defining PASS/FAIL SVs in VCF [1.0]
                        Default score 1.0 was estimated from simulated analysis.
  --homo float          Lower limit of a breakend read ratio to classify a homozygous state [0.75]
                        (i.e. Any breakend with homo<=ratio<=1.00 is classified as homozygous)
  --hetero float        Lower limit of a breakend read ratio to classify a heterozygous state [0.35]
                        (i.e. Any breakend with hetero<=ratio<homo is classified as heterozygous)
  --sv_bam_out          Outputs a BAM file containing only SV-supporting reads with
                        their corresponding SV-ID(s) stored in the "nv" tag separated by comma.
  --debug               Run in debug mode
  -v, --version         Show version and exit
  -q, --quiet           Hide verbose
  -t int, --threads int
                        Number of available threads for use [1]
  --model path          Specify path to custom-built model
  --mm path             Specify path to 'minimap2' executable
  --st path             Specify path to 'samtools' executable
  --ma path             Specify path to 'mafft' executable for NanoINSight
  --rm path             Specify path to 'RepeatMasker' executable for NanoINSight

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

生信软件23 - Samtools和GATK去除PCR重复方法汇总

生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download

生信软件25 - 三代测序数据灵敏比对工具ngmlr

生信软件26 - BWA-MEM比对算法性能更好的bwa-mem2

生信软件27 - 基于python的基因注释数据查询/检索库mygene

生信软件28 - fastq与bam的reads数量计算与双端fastq配对检测工具fastq-pair

生信软件29 - 三代数据高效映射精确的长读段比对工具mapquik

生信软件30 - 快速单倍型分析工具merlin

生信软件31 - Bcftools操作VCF/BCF文件高级用法合集

生信软件32 - 变异位点危害性评估预测工具合集

生信软件33 - Wgsim生成双端(PE) fastq模拟数据

生信软件34 - 大幅提升Python程序执行效率的工具Pypy

生信软件35 - AI代码编辑器Cursor

生信软件36 - SAM/BAM/CRAM文件插入SNV/INDEL/SV工具Bamsurgeon

生信软件37 - 基于测序reads变异进行单倍型分型工具WhatsHap

生信软件38 - 基因型填充软件IMPUTE2

生信软件39 - GATK最佳实践流程重构,提高17倍分析速度的LUSH流程

生信软件40 - bedtools经典使用方法合集

生信软件41 - GATK经典使用方法合集

生信软件42 - 科研绘图R包神器tidyplots

生信软件43 - iGenomes批量下载Ensembl、NCBI、GATK和UCSC参考基因组和注释文件资源

生信软件44 - 比PyVCF更高效的VCF解析Python库cyvcf2

生信软件45 - 遗传变异分析工具GEMINI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值