nf-core/eager:一款先进的古DNA分析管道
1. 项目基础介绍
nf-core/eager 是一个可扩展且具有重现性的生物信息学最佳实践处理管道,专为基因组NGS测序数据设计,尤其关注古DNA(aDNA)数据。该项目适用于(古)基因组分析,包括人类、动物、植物、微生物甚至微生物群落。该管道使用Nextflow构建,Nextflow是一个工作流工具,能够在多个计算基础设施中以高度便携的方式运行任务。它包含Docker容器,使得安装过程变得简单,结果高度可重现。
主要编程语言:Nextflow(以Java为基础),以及使用的各种生物信息学工具的编程语言,如Python、R等。
2. 项目的核心功能
- 数据预处理:包括质量控制、测序适配器去除、paired-end数据合并等。
- 读段映射:使用bwa、CircularMapper或bowtie2等工具将读段映射到参考基因组。
- 映射后处理:包括统计信息生成、转换到BAM格式、古DNA损伤模式可视化、PCR重复去除、映射后质量控制和库复杂性估计等。
- 附加功能:自动处理复杂的测序设置、去除未映射读段的转换、主DNA(映射读段)从输入FASTQ文件中去除等。
3. 项目最近更新的功能
- 新增工具和功能:包括用于UDG+/UDG-half处理协议的损伤去除/剪辑、受损读段的提取和评估、人类样本核DNA污染的估计、VCF和EIGENSTRAT基因分型文件创建、基因组的共识序列FASTA文件创建、SNP表生成等。
- 改进和优化:对现有步骤进行了优化,提高了管道的效率和稳健性。
- 新增文档和教程:为了帮助用户更好地理解和运行管道,增加了更多的文档和教程内容。
nf-core/eager 项目的持续更新确保了其在古DNA分析领域的前沿地位,为科研人员提供了一个高效、可重复且用户友好的分析工具。