生信软件17 - 基于fasta文件的捕获探针设计工具catch

最新推荐文章于 2025-06-06 22:21:50 发布

生信与基因组学

最新推荐文章于 2025-06-06 22:21:50 发布

阅读量1.8k

点赞数 4

分类专栏：生物信息学软件文章标签：数据分析数据挖掘 python

本文链接：https://blog.csdn.net/LittleComputerRobot/article/details/138490230

版权

生物信息学软件专栏收录该内容

45 篇文章

订阅专栏

catch是broad研究所开发的一款用于设计捕获探针的python软件。

1. 软件安装

适用于Linux / windows等，安装要求Python≥3.8 | NumPy≥1.22 | SciPy≥1.8.0

# github安装
git clone https://github.com/broadinstitute/catch.git
cd catch
pip install -e .


# coonda安装
conda install -c bioconda catch

2. 基本用法

catch默认输出探针为fasta格式文件

design.py [dataset] [dataset ...] -o OUTPUT

dataset参数可以是以下2中输入格式：

1. Fasta文件路径
2. NCBI taxonomy ID， catch会自动根据ID下载对应fasta序列，输入格式为： download:TAXID

2.1 主要参数：

-pl/--probe-length PROBE_LENGTH/-ps/--probe-stride PROBE_STRIDE: 
将探针设计为PROBE_LENGTH nt长(即设计探针长度)，并使用PROBE_STRIDE nt的步幅生成候选探针。 
（默认值：100和50。）

-m/--mismatches MISMATCHES：
允许的错配碱基数，值越大，探测越少。此值会显著影响运行时间，值越大，运行时间越短。

 -c/--coverage COVERAGE：
 确保探针至少捕获每个靶基因组的覆盖率，其中覆盖率是基因组的一部分或核苷酸的数量。 
 值越高，探测越多。（默认值：1.0，全基因组）。

-e/--cover-extension COVER_EXTENSION：
假设探针将捕获与其杂交的序列区域以及其两侧的COVER_EXTENSION nt。因为文库片段通常比捕获探针长，并且其值可以取决于文库片段长度。 
较高的值导致较少的探针，而较低的值在建模捕获中更严格。 通常使用50左右的值，并且在实践中效果良好。 （默认值：0。）

3. fasta文件作为输入运行示例

# 默认探针设计长度100bp
design.py design.fasta -o design.probes.fasta

4. taxonomy ID作为输入运行示例

软件运行时间较长，大约需要1小时左右。

# 运行测试案例，自动下载64320 taxonomy ID fasta序列
# 设计探针长度75nt， 最多2错配，探针与靶中间最长相同碱基至少60nt
# -o 输出文件
# --verbose 显示详细内容
design.py download:64320 -pl 75 -m 2 -l 60 -e 50 \
-o zika-probes.fasta --verbose


# 查看输出probes fasta文件
less -S zika-probes.fasta

zika-probes.fasta

6. 多taxonomy ID作为输入运行示例

输入更大、多种物种的taxonomy ID

# 将下载寨卡病毒（NCBI分类ID64320）和登革热病毒（NCBI分类ID12637）的全基因组
# 设计探针，并将探针保存到zika-and-dengue-probes.fasta
design_large.py download:64320 download:12637 \
-o zika-and-dengue-probes.fasta --verbose