mysql blast2go,blast2go

L 姐

于 2021-03-17 02:07:03 发布

阅读量607

点赞数

文章标签： mysql blast2go

很多人觉得基因注释很高深，特别对于那些不太懂编程的来说，感到无从下手，去年我也折腾了差不多半年，最后发现也就那么回事。一开始我是找各种基因注释的工具，例如研究geneontology自带的perl程序，里面涉及了众多模板，而且是模块里面又有模块，运行时不是少了这个模块就是那个模块有问题，最后折腾了两三个月也没有得到理想结果。后来用了blast2go这个程序用起来是没有问题，可实在是太慢，几个小时下去，泡都不冒一个。最后默默在躺在床上反思，我的目的是什么，注释的原理是什么。按照这个思路，慢慢的去找这些问题的答案，最后终于开窍了，想明白了真的好简单，现将思路简单归纳如下：

1、基因注释方法

1)根据已注释的信息，利用序列相似性原则，去注释未知序列。

2)查找文献资料注释基因功能。

基因批量注释的话都是采用第一种。

2、所需资料

1)将需要注释的序列翻译成氨基酸序列；

2)下载现有的已注释的蛋白序列(uniprot_sprot.fasta.gz，文件大小为78MB)；

3)下载联系蛋白序号和注释号(GO的accession)的文件(idmapping.td.gz，文件大小为2.17G);

4)下载最新的GO数据库文件assocdb-data.gz；

3、注释方法

1)利用formatdb格式化已注释的蛋白序列为blast库；

2)将需要注释的序列与blast库做blast;

3)找到与需注释序列相似度高的蛋白序列号；

4)找到这些蛋白序列号对应的注释号(GO号)；

5)用GO号在GO数据库文件中的term表中找到注释信息或者在geneontology官网用GO号就可以查到详细的注释信息；

如果用NCBI数据库，方法也差不多，先下载已注释的蛋白序列，格式化数据成blast库，将需注释的序列与这个blast库比对，找到相似度高的已注释的蛋白序列号，用此序列号用NCBI中gene_info.gz和gene2access找到蛋白序列的gene号,然后将此号用gene2go数据找到go号，最后用go号找到其注释信息就行了。

如果按照以上方法操作的话，其实基因注释非常简单，几乎只要做个blast，然后将信息对应过来就可以了，远没有那么复杂。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
mysql blast2go,blast2go

很多人觉得基因注释很高深，特别对于那些不太懂编程的来说，感到无从下手，去年我也折腾了差不多半年，最后发现也就那么回事。一开始我是找各种基因注释的工具，例如研究geneontology自带的perl程序，里面涉及了众多模板，而且是模块里面又有模块，运行时不是少了这个模块就是那个模块有问题，最后折腾了两三个月也没有得到理想结果。后来用了blast2go这个程序用起来是没有问题，可实在是太慢，几个小时下...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。