生信软件17 - 基于fasta文件的捕获探针设计工具catch

catch是broad研究所开发的一款用于设计捕获探针的python软件。

1. 软件安装

适用于Linux / windows等,安装要求Python≥3.8 | NumPy≥1.22 | SciPy≥1.8.0

# github安装
git clone https://github.com/broadinstitute/catch.git
cd catch
pip install -e .


# coonda安装
conda install -c bioconda catch

2. 基本用法

catch默认输出探针为fasta格式文件

design.py [dataset] [dataset ...] -o OUTPUT
dataset参数可以是以下2中输入格式:

1. Fasta文件路径
2. NCBI taxonomy ID, catch会自动根据ID下载对应fasta序列,输入格式为: download:TAXID

2.1 主要参数:
-pl/--probe-length PROBE_LENGTH/-ps/--probe-stride PROBE_STRIDE: 
将探针设计为PROBE_LENGTH nt长(即设计探针长度),并使用PROBE_STRIDE nt的步幅生成候选探针。 
(默认值:100和50。)

-m/--mismatches MISMATCHES:
允许的错配碱基数,值越大,探测越少。此值会显著影响运行时间,值越大,运行时间越短。

 -c/--coverage COVERAGE:
 确保探针至少捕获每个靶基因组的覆盖率,其中覆盖率是基因组的一部分或核苷酸的数量。 
 值越高,探测越多。(默认值:1.0,全基因组)。

-e/--cover-extension COVER_EXTENSION:
假设探针将捕获与其杂交的序列区域以及其两侧的COVER_EXTENSION nt。因为文库片段通常比捕获探针长,并且其值可以取决于文库片段长度。 
较高的值导致较少的探针,而较低的值在建模捕获中更严格。 通常使用50左右的值,并且在实践中效果良好。 (默认值:0。)


3. fasta文件作为输入运行示例

# 默认探针设计长度100bp
design.py design.fasta -o design.probes.fasta

4. taxonomy ID作为输入运行示例

软件运行时间较长,大约需要1小时左右。

# 运行测试案例,自动下载64320 taxonomy ID fasta序列
# 设计探针长度75nt, 最多2错配,探针与靶中间最长相同碱基至少60nt
# -o 输出文件
# --verbose 显示详细内容
design.py download:64320 -pl 75 -m 2 -l 60 -e 50 \
-o zika-probes.fasta --verbose


# 查看输出probes fasta文件
less -S zika-probes.fasta

zika-probes.fasta

6. 多taxonomy ID作为输入运行示例

输入更大、多种物种的taxonomy ID

# 将下载寨卡病毒(NCBI分类ID64320)和登革热病毒(NCBI分类ID12637)的全基因组
# 设计探针,并将探针保存到zika-and-dengue-probes.fasta
design_large.py download:64320 download:12637 \
-o zika-and-dengue-probes.fasta --verbose
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值