fast软件_干货分享 | 泛基因组分析软件测评(一)

在组学研究中我们经常会碰到「泛基因组」,指的是某一物种全部基因的总称。泛基因组的分析为了解基因组的动态、种群结构、物种进化、发病机制及耐药性等特性提出了有价值的见解。

既然泛基因组的应用如此广泛,那我们就来测评几款泛基因组分析软件吧!今天安利一款在我心中的满分软件「BPGA」

具体操作步骤如下

1. 运行软件,分析的第一步是聚类,键入序号「1」。

5b88791c-d61d-eb11-8da9-e4434bdf6706.png

2. 选择输入的文件格式。允许的格式为* .faa(NCBI 蛋白质 FASTA),* .pep.fsa(HMP蛋白质 FASTA)或任何蛋白质 FASTA 文件和* .gbk / * .gb(GenBank 文件)。

5c88791c-d61d-eb11-8da9-e4434bdf6706.png

3. 选择输入文件。对于输入 GenBank 格式文件作分析,BPGA 有一个特别的功能,可以鉴别并提取基因组中 GC 含量异常的基因,这些基因一般是通过水平基因转移事件(HGT)获得的。

这里选择 GC 含量偏离全基因组平均 GC 含量的阈值,即大于 2 倍或 3 倍标准偏差,默认为选择 2 倍

5e88791c-d61d-eb11-8da9-e4434bdf6706.png

4. 输入基因组文件,数目没有限制。输入后第一步准备工作就完成了。

5f88791c-d61d-eb11-8da9-e4434bdf6706.png

5. 继续下一步。键入数字「2」开始泛基因组分析。

6188791c-d61d-eb11-8da9-e4434bdf6706.png

6. 根据基因组的数目选择组合数来进行 Core-pan 模型预测,少于 20 个基因组选择 30,20-50 个基因组选择 20

6288791c-d61d-eb11-8da9-e4434bdf6706.png

7. 选定好利用核心基因组建树的方法。

6688791c-d61d-eb11-8da9-e4434bdf6706.png

8. 完成后,键入「3」分析提取基因组中 GC 含量异常的基因,到这里基本的泛基因组分析就完成了。

6788791c-d61d-eb11-8da9-e4434bdf6706.png

9. 选择「0」退出分析,结果就会整理成以下三个文件夹。

6888791c-d61d-eb11-8da9-e4434bdf6706.png

如何处理分析这些数据结果?

1、 结果「Result」文件夹

结果文件中将给出泛/核心模型预测图(Default_Core_Pan_Plot.pdf),基因家族的分布图(Histogram.pdf),新基因的数量变化图(New_Genes_Plot.pdf)以及序列统计表(stats.xls)。

6b88791c-d61d-eb11-8da9-e4434bdf6706.png

有三张是不同风格的 Core_Pan_Plot 图,可以根据自己喜好选择或进一步修改,以下展示的为未修改的原图,图片非常清晰美观。

6e88791c-d61d-eb11-8da9-e4434bdf6706.png

泛/核心模型预测图

7088791c-d61d-eb11-8da9-e4434bdf6706.png        基因家族的分布图

7888791c-d61d-eb11-8da9-e4434bdf6706.png

         新基因的数量变化图

  7d88791c-d61d-eb11-8da9-e4434bdf6706.png

基于核心基因建立的系统发育树

8188791c-d61d-eb11-8da9-e4434bdf6706.png

基因组统计表格

可以利用这些数据进行可视化。

8788791c-d61d-eb11-8da9-e4434bdf6706.png

模型预测表格(curve.xls),里面包含 Core-Pan 基因组拟合曲线的表达式。并且得出结论,该物种的泛基因组是「开放」或者「闭合」。

此处的「开放(OPEN)」意味着在不同环境中该物种能够以多种方式与其他物种进行遗传物质的交换,获取新的基因。而泛基因组的「闭合(CLOSED)」表示该物种获取外来基因的能力较弱。

8a88791c-d61d-eb11-8da9-e4434bdf6706.png

2. 「Sequences」文件夹

在「Sequences」文件夹中,有以下 FASTA 格式序列文件(按不同基因组进行编号),可以根据需要对它们进行注释分析。

8d88791c-d61d-eb11-8da9-e4434bdf6706.png

用 「BioEdit」打开文件,可以看到里边的序列展示

9288791c-d61d-eb11-8da9-e4434bdf6706.png

COG 注释分析结果如下

9488791c-d61d-eb11-8da9-e4434bdf6706.png

3. 「Suporting_files」文件夹

文件夹「Suporting_files」里面是一些作图的支撑材料,包括 nwk 格式的树文件。对于 20 个以内的原核生物基因组,整套流程跑下来只用了不到十分钟。大家可以根据自己需要选择数据和图片,并在 AI 中进行适当修改。

9788791c-d61d-eb11-8da9-e4434bdf6706.png

综合评价

  • 使用简单方便

  • 速度很快,比传统的 blast 比对快 10 到 100 个数量级

  • 对于要分析的基因组数目没有上限

  • 绘出的图片也十分美观

推荐指数:★★★★★

接下来我们还有三款软件要进行测评,敬请期待吧!

今天的软件安利内容小伙伴们喜欢嘛?喜欢的话记得收藏或点个「好看」哦!

BPGA 访问主页:http://www.iicb.res.in/bpga/index.html

软件下载地址:https://sourceforge.net/projects/bpgatool/

参考文献:

[1] Chaudhari N M ,  Gupta V K ,  Dutta C . BPGA- an ultra-fast pan-genome analysis pipeline[J]. Scientific Reports, 2016, 6:24373.

[2] Edgar R C . Search and clustering orders of magnitude faster than BLAST.[J]. Bioinformatics, 2010, 26(19):2460.

封面来源:站酷海洛 Plus

图片来源:作者提供

9a88791c-d61d-eb11-8da9-e4434bdf6706.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值