TGS-GapCloser 项目推荐
1. 项目基础介绍和主要编程语言
TGS-GapCloser 是一个开源的基因组拼接工具,主要用于填补基因组序列中的缺口(N-gap)。该项目由BGI-Qingdao团队开发,旨在利用第三代测序技术(如PacBio和Oxford Nanopore)生成的长读取数据来增强基因组组装。TGS-GapCloser 主要使用 C++ 编程语言编写,同时也涉及一些 Shell 和 Makefile 脚本。
2. 项目核心功能
TGS-GapCloser 的核心功能包括:
- 填补基因组缺口:使用长读取数据填补基因组序列中的N-gap,从而提高基因组组装的完整性。
- 支持多种输入格式:接受原始长读取数据和预先错误校正的读取数据作为输入。
- 自动错误校正:如果仅提供原始长读取数据,TGS-GapCloser 会调用 Racon 进行自动校正;如果提供额外的短读取数据(NGS),则会调用 Pilon 进行校正。
- 灵活的参数设置:用户可以根据需要调整多种参数,如最小匹配长度、最小身份过滤、线程数等,以优化填补效果。
3. 项目最近更新的功能
TGS-GapCloser 最近的更新包括:
- 支持PacBio读取类型:除了默认的ONT(Oxford Nanopore Technologies)读取类型外,现在还支持PacBio读取类型,用户可以通过
--tgstype
参数进行选择。 - 自定义minimap2参数:用户现在可以通过
--minmap_arg
参数自定义minimap2的参数,这对于避免生成过大的paf文件特别有用,例如在使用HiFi Reads时可以尝试--minmap_arg '-x asm20'
。 - 改进的错误校正模块:优化了Racon和Pilon的调用方式,提高了错误校正的效率和准确性。
- 详细的输出信息:增加了
gap_fill_details
文件,详细记录了每个缺口的填补过程和来源,便于用户进行后续分析和验证。
通过这些更新,TGS-GapCloser 在处理大型基因组时更加高效和灵活,为用户提供了更好的使用体验。