【2】基因功能注释之SwissProt和Interproscan

SwissProt注释

1. 获取uniprot_sprot数据库

wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz -P /home/user/DB
gzip -dc uniprot_sprot.fasta.gz > uniprot_sprot.fasta

2. 建库比对

diamond makedb --in /home/user/JustDo/wang/two-genome/Swiss-Prot/uniprot_sprot.fasta -d /home/user/JustDo/wang/two-genome/Swiss-Prot/uniprot_diamond.dmnd
diamond blastp --threads 4 --db /home/user/JustDo/wang/two-genome/Swiss-Prot/uniprot_diamond.dmnd --query /home/user/JustDo/wang/two-genome/Cc/genome/assembly/protein.fa --outfmt 6 qseqid qlen qstart qend sseqid slen sstart send pident ppos gaps length bitscore evalue qtitle stitle --evalue 1e-5 --max-target-seqs 1 --out swissprot.blast.xls

Interproscan

官网地址:​​​​​​http://www.ebi.ac.uk/interpro/download.html

github:https://github.com/ebi-pf-team/interproscan/wiki

1. 下载并解压

wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.52-86.0/interproscan-5.52-86.0-64-bit.tar.gz
tar -pxvzf interproscan-5.52-86.0-64-bit.tar.gz

##-p preserve the file permissions #即保存文件权限

2. 安装

安装Panther模块

cd /home/user/interproscan-5.52-86.0/data/
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-12.0.tar.gz
tar -pxvzf panther-data-12.0.tar.gz

3. 调用数据库注释

/home/user/JustDo/wang/two-genome/interproscan-5.52-86.0/interproscan.sh -appl Pfam -goterms -iprlookup -i protein.fa –pa -b Cc.pfam.go -f tsv 

NOTE(亲测):如果将-goterms -iprlookup放到命令的末尾将不会提取GO信息,需要紧接着-appl的参数。

##参数说明

调用数据库参数:

-appl/--applications application_name (optional)  ##By default, all available analyses are run.

所有可用的数据库list:

CDD,COILS,Gene3D,HAMAP,MOBIDB,PANTHER,Pfam,PIRSF,PRINTS,ProDom
PROSITE (Profiles and Patterns),SFLD,SMART (unlicensed components only by default - this analysis has simplified post-processing that includes an E-value filter, however you should not expect it to give the same match output as the fully licensed version of SMART)
SUPERFAMILY,TIGRFAMs


以下的数据库在interproscan 5中可用,但是需要获得许可:

Phobius (licensed software),SignalP,SMART (licensed components),TMHMM

NOTE: 另外,一般最好指定数据库,如果不指定数据库全部运行的话常常会报错。-appl后面可以接多个数据库,数据库名称之间用逗号隔开即可。

其他参数:

-i / --fasta sequence_file

#蛋白fasta序列输入

-iprlookup,--iprlookup (optional)

-goterms,--goterms (optional)

#开启GO注释,这两个参数一般一起开,GO的注释依赖于-iprlookup参数

-b / --output-file-base file_name (optional)

#输出文件名的前缀

-f (可以同时添加多个-f  输出多个格式)

#输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG

-pa / --pathways (optional)

#输出mapping到的通路(pathway)信息

NOTE: 提供的输入文件中(如protein.fa)中不能带有*号。

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值