SwissProt注释
1. 获取uniprot_sprot数据库
wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz -P /home/user/DB
gzip -dc uniprot_sprot.fasta.gz > uniprot_sprot.fasta
2. 建库比对
diamond makedb --in /home/user/JustDo/wang/two-genome/Swiss-Prot/uniprot_sprot.fasta -d /home/user/JustDo/wang/two-genome/Swiss-Prot/uniprot_diamond.dmnd
diamond blastp --threads 4 --db /home/user/JustDo/wang/two-genome/Swiss-Prot/uniprot_diamond.dmnd --query /home/user/JustDo/wang/two-genome/Cc/genome/assembly/protein.fa --outfmt 6 qseqid qlen qstart qend sseqid slen sstart send pident ppos gaps length bitscore evalue qtitle stitle --evalue 1e-5 --max-target-seqs 1 --out swissprot.blast.xls
Interproscan
官网地址:http://www.ebi.ac.uk/interpro/download.html
github:https://github.com/ebi-pf-team/interproscan/wiki
1. 下载并解压
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.52-86.0/interproscan-5.52-86.0-64-bit.tar.gz
tar -pxvzf interproscan-5.52-86.0-64-bit.tar.gz
##-p preserve the file permissions #即保存文件权限
2. 安装
安装Panther模块
cd /home/user/interproscan-5.52-86.0/data/
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-12.0.tar.gz
tar -pxvzf panther-data-12.0.tar.gz
3. 调用数据库注释
/home/user/JustDo/wang/two-genome/interproscan-5.52-86.0/interproscan.sh -appl Pfam -goterms -iprlookup -i protein.fa –pa -b Cc.pfam.go -f tsv
NOTE(亲测):如果将-goterms -iprlookup放到命令的末尾将不会提取GO信息,需要紧接着-appl的参数。
##参数说明
调用数据库参数:
-appl/--applications application_name (optional) ##By default, all available analyses are run.
所有可用的数据库list:
CDD,COILS,Gene3D,HAMAP,MOBIDB,PANTHER,Pfam,PIRSF,PRINTS,ProDom
PROSITE (Profiles and Patterns),SFLD,SMART (unlicensed components only by default - this analysis has simplified post-processing that includes an E-value filter, however you should not expect it to give the same match output as the fully licensed version of SMART)
SUPERFAMILY,TIGRFAMs
以下的数据库在interproscan 5中可用,但是需要获得许可:
Phobius (licensed software),SignalP,SMART (licensed components),TMHMM
NOTE: 另外,一般最好指定数据库,如果不指定数据库全部运行的话常常会报错。-appl后面可以接多个数据库,数据库名称之间用逗号隔开即可。
其他参数:
-i
/ --fasta sequence_file
#蛋白fasta序列输入
-iprlookup,--iprlookup (optional)
-goterms,--goterms (optional)
#开启GO注释,这两个参数一般一起开,GO的注释依赖于-iprlookup参数
-b / --output-file-base file_name (optional)
#输出文件名的前缀
-f (可以同时添加多个-f 输出多个格式)
#输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG
-pa
/ --pathways (optional)
#输出mapping到的通路(pathway)信息
NOTE: 提供的输入文件中(如protein.fa)中不能带有*号。