生信软件16 - 常规探针设计软件mrbait

1. mrbait安装

mrbait支持linux和macOS系统,测试安装Python版本 3.6.15。

# conda安装
conda install mrbait -c tylerkchafin -c bioconda -c conda-forge

# github安装
git clone https://github.com/tkchafin/mrbait.git
cd mrbait
python ./setup.py install

# 安装依赖库
pip install PyVCF
pip install pandas
pip install biopython
pip install networkx

# 测试安装是否成功
mrbait -h

2. 工作流

mrbait工作流分为以下5个步骤:

  1. Alignments (provided as .xmfa, .loci, or .maf) or genomes (provided as .fasta, annotated with .vcf or .gff) will be used to build a consensus sequence of each locus.
  2. A sliding window will be applied to each consensus to find candidate targets for which baits could be designed
  3. Targets are then selected (if too close together, or only one allowed per locus), and filtered according to any number of specified filter (e.g. GC content, flanking SNPs, pairwise alignment)
  4. Passing targets are then parsed to design a putative set of baits
    Baits are then filtered according to selected criteria, and output as FASTA.
  5. The pipeline can be resumed and any steps iteratively re-visited by providing the SQLite database file (resulting in a significant reduction in runtime for successive runs)
    设计流程图

3.基本用法

mrbait适用于多种输入格式,有maf,vcf,gff,fasta等,通常会选择输入fasta文件进行探针设计。

根据input.fa文件,生成探针长度为120,跨靶区域平铺,重叠40个碱基, 输出文件前缀probe.design
mrbait -A input.fa -b 120 -o probe.design -T 4 -s tile=40

运行部分结果:

>HBA_chr16_222006_224006:0-20011:0-120_Bait=1
GTTCAACCAGGGAGATTTCAAAGGAGGGTGGCGATGCTGGGACTCCCTGAGTAGAACCCTGGATGCCTCTCTCCTCCCCAGCTTCTGAGCCACTGCCTGCAGGCCTGGCACCTCTCAGGA
>HBA_chr16_222006_224006:0-20011:80-200_Bait=2
GCTTCTGAGCCACTGCCTGCAGGCCTGGCACCTCTCAGGACAGGGGATGGTTCAGCACCTTCTCTTGAGCAGGCCCACCTCAGCTTCCCCTCCCATACTCCCTGCAGTTCTCCCTCCCCA
>HBA_chr16_222006_224006:0-20011:160-280_Bait=3
CAGCTTCCCCTCCCATACTCCCTGCAGTTCTCCCTCCCCAGCCCCATGCAGCTGCAGAGAGGTCCTTGGTCTGAGACAGGTAAACACCTCCATTGTTGGCACATTCCGGGATAGAGAGAA
......
根据example.maf文件,生成探针长度为80,跨靶区域平铺,重叠40个碱基
mrbait -M example.maf -b 80 -s tile=40

4. 输出文件

mrbait输出文件为格式化的FASTA文件,命名为 o u t b a i t s . f a s t a (其中 out_baits.fasta (其中 outbaits.fasta(其中out使用-o/-out参数定义)。

默认情况

默认情况下,输出全部模糊性序列(例如,作为 consensus sequence):

>Locus1_Target4_Bait1
ATGTAATRAGGTATATG……
>Locus1_Target4_Bait2
TATGAATGTCGCGCGAT……
…

所有组合

如果使用-x/-expand选项,输出所有组合,如下所示:

>Locus2_Target4_Bait1.1
ATGTAATAAGGTATATG……
>Locus2_Target4_Bait1.1
ATGTAATGAGGTATATG……
>Locus1_Target4_Bait2.1
TATGAATGTCGCGCGAT……
…

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

更多内容请关注公众号【生信与基因组学】,定期更新生信算法和编程、基因组学、统计学、分子生物学、临床检测和深度学习等内容。

  • 17
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值