InterPro是一个数据库,其提供蛋白序列的功能分析并归纳为一个个蛋白家族,同时还预测了presence of domains和important sites。为了将蛋白分类,InterPro使用先验模型,整合了不同的数据库形成一个整体
而InterProScan则是一款可以使用InterPro数据库的软件(more information about InterProScan)
至于Why is InterPro useful? and Who uses InterPro?则可以查看下述网址InterPro。其不仅做了很好的介绍,而且还提到了所整合的数据的名称以及简介,如:Pfam, HAMAP, CATH-Gene3D等等
所以总而言之,就是对蛋白序列或者核酸序列通过这几个数据库的整合信息进行注释
InterProScan 5.0 的安装
这款软件的安装可以完全按照InterProScan说明文档中的教程来操作,简单的介绍下:$JAVA_HOME should point to the location of the JVM
$JAVA_HOME/bin should be added to the $PATH64-bit Linux
Perl (default on most Linux distributions)
Python 2.7.x only
Oracle’s Java JDK/JRE version 8 (required by InterProScan 5.17-56.0 onwards). Earlier InterProScan release versions required Java 6 (version 6u4 and above) or Java 7.
Environment variables set
配置完后可以进行安装了,其实解压缩就可以了:tar -zxvf interproscan-5.24-63.0-64-bit.tar.gz
cd interproscan-5.24-63.0/data/#记得把panther-data-11.1.tar.gz压缩包先移到上述目录下tar -zxvf panther-data-11.1.tar.gz
接下来是一个可选项,看你需要不要Match Lookup Service,因为我是本地化,不想联网操作,因此就会禁止这项操作vim interproscan-5.24-63.0/interproscan.properties#然后 #掉下面这行代码precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup
经过上述几步,InterProScan的安装基本完成
InterProScan 5.0 的使用
在安装完后,我们可以拿Interproscan文件夹中的测试文件进行测试下./interproscan.sh -i test_proteins.fasta -f tsv
如果没有报错,则表示InterProScan能正常运行了
一般常用的参数有这些:1. -appl,--applications 用于指定使用Interpro中哪些数据库,默认全部数据库
2. -b,--output-file-base 用于指定输出文件的路径or文件夹,默认是输入文件的路径
3. -f,--formats 用于指定输出文件的后缀,蛋白序列默认输出TSV, XML and GFF3 4. -i,--input 输入文件,一般要为fasta格式,不要带有其他特殊符号
最后就是查看结果即可,没有特殊要求的话,InterProScan 5.0的使用就这样了。强烈推荐看文档https://github.com/ebi-pf-team/interproscan/wiki,写的实在很详细!
转载本文请联系原作者获取授权,同时请注明本文来自黄顺谋科学网博客。
链接地址:http://blog.sciencenet.cn/blog-442719-1171426.html
上一篇:NCBI怎么上传数据
下一篇:[转载]cygwin 的不同文件类型显示不同的颜色