零代码利用KofamKOALA进行在线版蛋白KEGG注释

图片

不管是常规的转录组测序,还是富集实验测序。在拿到目标基因之后,都需要对基因进行注释(GO/KEGG/COG等)。此外,GO/KEGG富集分析也是用于后续深入分析的重要手段。为了进行富集分析,对基因的GO/KEGG注释是至关重要的。除了自建基因组以及少部分数据库会有开放的KEGG注释外,大部分开源的基因组都无法下载到此基因组对应基因已有的KEGG注释(尤其是非模式物种)。目前分析的主要方案都是利用eggNOG-mapper(我们也是使用这个分析),对基因组蛋白文件进行同源比对,随后调用eggNOG收录的KEGG注释。但也有不少老师认为这个软件对应的注释不全,希望寻找一个其他的注释方案。在此介绍一个KEGG官网推荐的注释网站KofamKOALA。这个网站和eggNOG一样,也可以用于在线分析,方便一些没有生信条件的老师使用。

数据库网址:https://www.genome.jp/tools/kofamkoala/

  • 使用方法:

一、拿到基因组蛋白序列文件

以大豆基因组【Glycine max Wm82.a4.v1】为例。数据库里会有可供下载的pep.fa。注意一定是用蛋白序列,而不是基因序列

图片

二、序列拆分

在拿到蛋白序列文件后,除了使用本地版KofamKOALA外,在线版对于输入的蛋白序列数量有一定要求(<1w条)。但是一个基因组一般不会只有这么少的基因(小基因组物种除外),因此要先把完整的pep.fa进行拆分(比如使用TBTools)。

图片

三、文件上传

图片

  • 注意:

    (1)邮箱必填,后续会用到。

    (2)HMM模型阈值,默认是0.01。可自行修改(eggNOG-mapper默认是0.001)

四、邮箱点击确认

在上传了蛋白序列,以及点击了【compute】后,页面会跳转并告知要求邮件确认。

图片

查看邮件(没有的话看看垃圾箱),并点击【submit】对应的链接即可。然后就是等待结果交付(我这个大概是1w附近条序列,需等待2h左右)。

图片

图片

五、注释结果下载

图片

图片

默认输出结果是所有注释信息,可以通过点击【Above threshold】在线查看满足阈值的注释以及k号,然后也可以点击download进行本地文件下载(如果要用于后续富集分析,就点击【input file for Kegg Mapper】)。

图片

六、和eggNOG-mapper的对比

(1)数量差异:

针对于同一个基因组的两种不同数据库注释,我们做了对比。结果显示2种数据库的注释数量不太一致(list1是KofamKOALA,list2是eggNOG-mapper)。

图片

(2)特有差异

对拥有注释的蛋白取交集(29296)和并集(45599)发现两者具有较高的重叠,但也有一定的独特注释(加上KofamKOALA,相比单纯的eggNOG-mapper注释多了5k)。

图片

(3)注释信息差异

两个数据库绝大多数蛋白都享有相同的k号,但也有少部分蛋白的注释不太一致(见红框),推测可能与数据库收录情况有关,鉴于这两者都是常用且被认可的数据库,私认为可以考虑并集整合。

图片

  结  语 

此教程适配没有生信平台的老师,在线版有一定的限制,比如输入序列数量,只能进行单次分析等(除非你有多个邮箱能够接收结果)。有条件的老师还是可以考虑使用本地版进行注释,官网也是有本地kofam数据下载,感兴趣的老师可以自行去看看~

图片

图片

  • 22
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值