catch是broad研究所开发的一款用于设计捕获探针的python软件。
1. 软件安装
适用于Linux / windows等,安装要求Python≥3.8 | NumPy≥1.22 | SciPy≥1.8.0
# github安装
git clone https://github.com/broadinstitute/catch.git
cd catch
pip install -e .
# coonda安装
conda install -c bioconda catch
2. 基本用法
catch默认输出探针为fasta格式文件
design.py [dataset] [dataset ...] -o OUTPUT
dataset参数可以是以下2中输入格式:
1. Fasta文件路径
2. NCBI taxonomy ID, catch会自动根据ID下载对应fasta序列,输入格式为: download:TAXID
2.1 主要参数:
-pl/--probe-length PROBE_LENGTH/-ps/--probe-stride PROBE_STRIDE:
将探针设计为PROBE_LENGTH nt长(即设计探针长度),并使用PROBE_STRIDE nt的步幅生成候选探针。
(默认值:100和50。)
-m/--mismatches MISMATCHES:
允许的错配碱基数,值越大,探测越少。此值会显著影响运行时间,值越大,运行时间越短。
-c/--coverage COVERAGE:
确保探针至少捕获每个靶基因组的覆盖率,其中覆盖率是基因组的一部分或核苷酸的数量。
值越高,探测越多。(默认值:1.0,全基因组)。
-e/--cover-extension COVER_EXTENSION:
假设探针将捕获与其杂交的序列区域以及其两侧的COVER_EXTENSION nt。因为文库片段通常比捕获探针长,并且其值可以取决于文库片段长度。
较高的值导致较少的探针,而较低的值在建模捕获中更严格。 通常使用50左右的值,并且在实践中效果良好。 (默认值:0。)
3. fasta文件作为输入运行示例
# 默认探针设计长度100bp
design.py design.fasta -o design.probes.fasta
4. taxonomy ID作为输入运行示例
软件运行时间较长,大约需要1小时左右。
# 运行测试案例,自动下载64320 taxonomy ID fasta序列
# 设计探针长度75nt, 最多2错配,探针与靶中间最长相同碱基至少60nt
# -o 输出文件
# --verbose 显示详细内容
design.py download:64320 -pl 75 -m 2 -l 60 -e 50 \
-o zika-probes.fasta --verbose
# 查看输出probes fasta文件
less -S zika-probes.fasta
6. 多taxonomy ID作为输入运行示例
输入更大、多种物种的taxonomy ID
# 将下载寨卡病毒(NCBI分类ID64320)和登革热病毒(NCBI分类ID12637)的全基因组
# 设计探针,并将探针保存到zika-and-dengue-probes.fasta
design_large.py download:64320 download:12637 \
-o zika-and-dengue-probes.fasta --verbose