SvABA:基于局部组装的结构变异和插入缺失检测工具
项目介绍
SvABA是一款利用局部组装方法来在测序数据中探测结构变异(Structural Variations, SV)和插入缺失的开源工具。它依赖于自定义实现的SGA(String Graph Assembler),由Jared Simpson开发,并结合了Heng Li的BWA-MEM对齐程序。此工具通过分析全局每25kb窗口内的序列(含小范围重叠),特别是在处理剪切的discordant read、未映射读段、indel以及可定制规则下的其他类型读段时表现突出,以识别结构变异。
项目快速启动
安装
首先,确保你的系统上安装了Git、CMake、以及必要的编译环境(如GCC或Clang)。然后,通过以下步骤克隆并构建SvABA:
git clone https://github.com/walaj/svaba.git
cd svaba
mkdir build && cd build
cmake ..
make
运行示例
运行SvABA进行基本的结构变异检测,你需要提供肿瘤样本的BAM文件、正常样本的BAM文件、参考基因组FASTA文件以及目标染色体或区域。例如,检测Chr22上的结构变异:
./svaba -t tumor.bam -n normal.bam -k 22 -G reference.fasta -a sample_id -p 4
使用svaba --help
或 svaba run --help
查看更多命令行选项和详细用法。
应用案例和最佳实践
靶向局部组装:
对于靶向捕获区域,可以指定一个BED文件作为目标区域 -k targets.bed
来仅在这些区域执行局部组装,适合外显子捕获等研究:
svaba run -t tumor.bam -k targets.bed -a targeted_analysis -G reference.fasta
全面读取组装:
若要包括所有类型的读取进行组装,而不仅是默认的特定类型,使用 -r all
标志:
svaba run -t all_reads.bam -r all -G reference.fasta
调试与可视化:
对于更深入的分析,可以通过记录日志和生成ASQG图进行局部组装的调试:
svaba run -t tumor.bam -a debug_analysis -k chr17:7541145-7621399 ---write-asqg
Rscript path/to/svaba-asqg.R # 观察组装结果
典型生态项目
虽然直接关联的“典型生态项目”信息没有在提供的引用内容中明确提及,SvABA通常应用于癌症基因组学、遗传病研究以及比较基因组学领域,其中与其他生物信息学工具(比如CNVnator、Pindel、Manta等)共同使用,进行互补性的结构变异分析。开发者和研究者可能会集成SvABA到其工作流中,比如结合使用GATK、bcftools等进行变异调用后的过滤和注释,或是与生物数据库如dbSNP、ClinVar对比,以进行临床意义的评估。
以上是关于SvABA的基本使用教程,具体应用时还需参阅项目最新文档及社区讨论,以适应不同的研究需求和数据特性。