Dorado 基础使用教程
项目地址:https://gitcode.com/gh_mirrors/do/dorado
1. 项目介绍
Dorado 是一个高性能、易于使用的开放源码碱基识别软件,专为牛津纳米孔(Oxford Nanopore)读取数据设计。其特点包括一键执行、智能硬件检测配置,以及对苹果M1/2系列芯片的支持。Dorado 提供了高分类率,并且可以在单个可执行文件中设置合理的默认值。此外,它还具有双端条形码检测功能,以减少错误阳性并提高整体分类准确性。
2. 项目快速启动
安装 Dorado
首先,确保您的系统满足最低软件要求,例如Linux x86_64平台需要CUDA驱动≥450.80.02。然后,你可以通过以下步骤安装或编译Dorado:
# 克隆仓库
git clone https://github.com/chawyehsu/dorado.git
cd dorado
# 根据你的环境配置构建Dorado
mkdir build && cd build
cmake ..
make -j 4
运行 Dorado 基因测序
运行 Dorado 来对POD5文件进行基因测序,可以使用以下命令:
# 使用hac模型处理pod5s目录下的所有文件
dorado basecaller hac pod5s/ > calls.bam
# 或者处理单个文件
dorado basecaller hac path/to/data_file.fast5 > single_call.bam
# 如需从已有的BAM文件恢复中断的测序,使用--resume-from标志
dorado basecaller hac pod5s/ --resume-from incomplete.bam > complete_calls.bam
3. 应用案例和最佳实践
混合样本分接
使用 dorado demux
工具将输出的BAM文件按条形码拆分成单独的文件:
# 输出到指定目录,不进行分类
dorado demux --output-dir output_dir --no-classify input.bam
Poly(A) 尾部长度估计
对于cDNA和RNA数据,启用Poly(A)尾部长度估计:
# 启动Poly(A)估计
dorado basecaller hac --estimate-poly-a --poly-a-config config.yaml pod5s/
请注意,为了配置定制的引物序列和中断尾巴估计,你需要提供config.yaml
文件。
4. 典型生态项目
Dorado 适合于结合其他牛津纳米孔分析工具如MinKNOW,Albacore等。在实际应用中,它可以作为生物信息学工作流程的一部分,用于基因组组装、变异检测和转录组分析。此外,由于Dorado支持CUDA加速,它与NVIDIA GPU优化的其他工具一起使用时能实现更高的性能。
希望这个简单的指南能帮助您开始使用Dorado。更多详细的文档和开发信息,可以直接查看项目GitHub页面上的README和其他相关文件。
dorado 🐟 Yet Another bucket for lovely Scoop 项目地址: https://gitcode.com/gh_mirrors/do/dorado