Swiss-Prot注释

1.下载Swiss-prot的蛋白质序列并构建blast数据库

Swiss-Prot 数据库中的蛋白质的功能经过了试验验证,注释是精确的。但是其蛋白质数目相比于Nr,就非常少了,仅有约54万条。由于数据库不大,适合于本地化Blast进行Swiss-Prot注释。

(1)下载Swiss-Prot的蛋白质序列并构建Blast数据库 $wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz

(这是windows下的下载链接:http://www.uniprot.org/downloads)

(2)解压下载好的数据库$gzip -d uniprot_sprot.fasta.gz

(3)建库 $makeblastdb -in uniprot_sprot.fasta-dbtype prot -title uniprot_sprot-parse_seqids -outuniprot_sprot -logfileuniprot_sprot.log

$cat uniprot_sprot.log

(在此之前,我将makeblastdb加入到环境变量中去了。还有下面的blastp我也加入到环境变量中去了。)

2.使用blastp进行Swiss-prot注释

$blastp -query proteins.fasta -out swiss-prot.tab -db uniprot_sprot -evalue 1e-5 -outfmt 7

$cat swiss-prot.tab

下面是注释的结果:

# BLASTP 2.2.30+
# Query: sp|Q197F8|002R_IIV3 Uncharacterized protein 002R OS=Invertebrate iridescent virus 3 GN=IIV3-002R PE=4 SV=1
# Database: uniprot_sprot
# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 1 hits found
sp|Q197F8|002R_IIV3    sp|Q197F8|002R_IIV3    100.00    458    0    0    1458    1    458    0.0      949
# BLASTP 2.2.30+
# Query: sp|Q197F7|003L_IIV3 Uncharacterized protein 003L OS=Invertebrate iridescent virus 3 GN=IIV3-003L PE=4 SV=1
# Database: uniprot_sprot
# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 1 hits found
sp|Q197F7|003L_IIV3    sp|Q197F7|003L_IIV3    100.00    156    0    0    1156    1    156    1e-111      320
# BLASTP 2.2.30+
# Query: sp|Q6GZX2|003R_FRG3G Uncharacterized protein 3R OS=Frog virus 3 (isolate Goorha) GN=FV3-003R PE=4 SV=1
# Database: uniprot_sprot
# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 1 hits found
sp|Q6GZX2|003R_FRG3G    sp|Q6GZX2|003R_FRG3G    100.00    438    0    0    1438    1    438    0.0      900
# BLASTP 2.2.30+
# Query: sp|Q6GZX1|004R_FRG3G Uncharacterized protein 004R OS=Frog virus 3 (isolate Goorha) GN=FV3-004R PE=4 SV=1
# Database: uniprot_sprot
# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 1 hits found
sp|Q6GZX1|004R_FRG3G    sp|Q6GZX1|004R_FRG3G    100.00    60    0    0    160    1    60    3e-36      121
# BLASTP 2.2.30+
# Query: sp|Q197F5|005L_IIV3 Uncharacterized protein 005L OS=Invertebrate iridescent virus 3 GN=IIV3-005L PE=4 SV=1
# Database: uniprot_sprot
# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 1 hits found
sp|Q197F5|005L_IIV3    sp|Q197F5|005L_IIV3    99.08    217    2    0    1217    1    217    2e-156      439
# BLAST processed 5 queries



3.Swiss-Prot Annotation Practise

$mkdir -p /home/train/swiss-prot

$cd /home/train/swiss-prot


$blast.pl blastp uniprot_sprot ../proteins.fasta 1e-5 4 uniprot_sprot 5

————我做到这一步就总是卡住,,,,,,继续研究中.....

$parsing_blast_result.pl uniprot_sprot.xml 20 1e-5 0.2 > uniprot_sprot.xls


-------------------------------------------------------------------------分割线------------------------------------------------------------------------------------------------------------------------------

bash: /home/sicong/blast/bin/parsing_blast_result.pl: 权限不够的解决方法
$cd /home/sicong/blast/bin/
$chmod 755 parsing_blast_result.pl


------------------------------------------------------------------------------分割线-------------------------------------------------------------------------------------------------------------------------


接下来我用了blastx,将核酸序列比对到蛋白质数据库,这里就是Swiss-prot


$makeblastdb -in uniprot_sprot.fasta -dbtype prot -title uniprot_sprot -parse_seqids -out uniprot_sprot -logfile uniprot_sprot.log


$cat uniprot_sprot.log


$blastx -help


$blastx -query Trinity.fasta -out swiss-prot_.tab -db uniprot_sprot -evalue 1e-5 -outfmt 7


$cat swiss-prot_.tab


# BLASTX 2.2.30+
# Query: TRINITY_DN105_c0_g1_i1 len=201 path=[179:0-200] [-1, 179, -2]
# Database: uniprot_sprot
# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 280 hits found
TRINITY_DN105_c0_g1_i1    sp|P46595|UBC4_SCHPO    100.00    67    0    0    1    201    35    101    9e-43      141
TRINITY_DN105_c0_g1_i1    sp|Q9UVR2|UBC1_MAGO7    97.01    67    2    0    1    201    35    101    4e-42      139
TRINITY_DN105_c0_g1_i1    sp|O74196|UBC1_COLGL    95.52    67    3    0    1    201    35    101    2e-41      137
TRINITY_DN105_c0_g1_i1    sp|P15732|UBC5_YEAST    89.55    67    7    0    1    201    36    102    1e-39      133
TRINITY_DN105_c0_g1_i1    sp|P15731|UBC4_YEAST    88.06    67    8    0    1    201    36    102    2e-39      132
TRINITY_DN105_c0_g1_i1    sp|P61078|UB2D3_RAT    92.54    67    5    0    1    201    35    101    7e-39      131
TRINITY_DN105_c0_g1_i1    sp|Q5R4V7|UB2D3_PONAB    92.54    67    5    0    1    201    35    101    7e-39      131
TRINITY_DN105_c0_g1_i1    sp|P61079|UB2D3_MOUSE    92.54    67    5    0    1    201    35    101    7e-39      131
TRINITY_DN105_c0_g1_i1    sp|Q4R5N4|UB2D3_MACFA    92.54    67    5    0    1    201    35    101    7e-39      131
TRINITY_DN105_c0_g1_i1    sp|P61077|UB2D3_HUMAN    92.54    67    5    0    1    201    35    101    7e-39      131
TRINITY_DN105_c0_g1_i1    sp|P62840|UB2D2_XENLA    92.54    67    5    0    1    201    35    101    7e-39      131
TRINITY_DN105_c0_g1_i1    sp|P62839|UB2D2_RAT    92.54    67    5    0   
..........

........

.....

...

..

.

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
Usage: /home/chenlianfu/chenlianfu_scripts/parsing_blast_result.pl [options] blast.out > blast.tab 对BLAST的xml或tab格式的结果进行解析和过滤,得到更准确的BLAST结果。结果为表格形式(BLAST outfmt6),结果按query序列的ID排序,每个query序列的比对结果按得分排序。 --type default: xml 设置输入BLAST结果文件的类型。可以设置为xml或tab两种类型。 若是tab格式,则BLAST结果中没有query与subject的序列长度信息,默认设置下无法使用--subject-coverage和--query-coverage参数的覆盖率阈值对结果进行过滤。在设置--db-subject输入数据库FASTA文件后可以使用--subject-coverage参数进行过滤;在设置--db-query输入query序列FASTA文件后可以使用--query-coverage参数进行过滤。 若是xml格式,结果文件中包含query和subject长度信息,从而不需要使用--db-subject和--db-query参数输入FASTA序列文件。 --no-header 添加该参数则不输出表头。 --max-hit-num default: 20 设置允许的最大hit数量。 --evalue default: 1e-5 设置HSP的evalue阈值。 --identity default: 0.05 设置HSP的identity阈值。 --CIP default: 0.2 设置cumulative identity percentage阈值(这里依然使用了比值,单位不是%,所以其值要设置不大于1,默认值0.2表示20%阈值),对Hit进行过滤。CIP = 所有HSPs的一致位点之和 / 所有HSPs的比对长度之和。 --subject-coverage default: 0.2 设置所有HSPs对subject序列总体的覆盖率阈值。该参数阈值在文献中也被称为CALP(cumulative alignment length percentage),即 sum of all HSPs / subject length。 --db-subject 输入数据库的FASTA文件,以获取subject序列长度信息。 --query-coverage default: 0.2 设置所有HSPs对query序列总体的覆盖率阈值。该参数阈值在文献中也被称为CALP(cumulative alignment length percentage),即 sum of all HSPs / query length。 --db-query 输入query序列的FASTA文件,以获取query序列长度信息。 --percentage-of-top-bitscore default: 100 使用bitscore得分对hit进行过滤,设置输出hits的bitscore得分和最高得分相差不超过最高得分的百分数。hit若有多个HSPs,则取最高的HSP得分作为hit的得分;若数据库非常大,则推荐将设置该参数值设置为10,则能极大减少比对结果,保留最准确的结果;若数据库比较小,则推荐设置该参数值为50,或使用默认值;使用该参数来减少比对结果,优于仅使用最优比对结果。 --HSP-num default: max 若一个hit有多个HSPs,该参数设置输出得分指定数目个最高的HSPs。默认输出所有的HSPs。 --out-hit-confidence 添加该参数,则在表格结果第13、14和15列分别输出Hit的CIP、CALP_query、CALP_subject值。 --suject-annotation 若--type参数的值是xml,添加该参数可以生效,则额外增加最后一列suject annotation注释结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值