oracle euk 什么系统,【T】每日一生信--interproscan安装及使用(终结版)

本博文已整理到新地址:http://qinqianshan.com/interproscan-installation-and-usage/

Interpro是一个数据库,它里面有蛋白功能,蛋白家族等信息。而Interproscan就是可以将你的蛋白序列跟这个这个数据比对,从而给你的序列功能注释。

Interproscan5新增了一些功能

用来预测跨膜和信号肽

可以把结果map到上传的数据上

寻找蛋白可能的生物学代谢途径

新的输出格式XML和GFF3.0

提升了图形界面的

配置要求:至少2

cores and 4 GB of RAM, 这样才能同时分析5

- 10 sequences .

软件要求:

Linux, 32 bit or 64 bit (64 bit recommended).

Perl

(default on most Linux distributions)

Oracle's Java JDK/JRE version 6u4 and higher (which also

includes Java 7)

Environment variables set

JAVA_HOME should point to the location of the JVM

$JAVA_HOME/bin should be added to the CLASSPATH

查看我的配置:

sam@sam-Precision-WorkStation-T7500[sam] uname

-a

Linux sam-Precision-WorkStation-T7500 3.5.0-42-generic

#65~precise1-Ubuntu SMP Wed Oct 2 20:57:18 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

其中x86_64代表64

Bit,如果是686代表的是32

Bit

sam@sam-Precision-WorkStation-T7500[sam] java -version

[

java version "1.7.0_45"

Java(TM) SE Runtime Environment (build

1.7.0_45-b18)

Java HotSpot(TM) 64-Bit Server VM (build 24.45-b08, mixed

mode)

现在仅仅支持version1.6

or 1.7

sam@sam-Precision-WorkStation-T7500[sam] perl -version

[

This is perl 5, version 14, subversion 2 (v5.14.2) built

for x86_64-linux-gnu-thread-multi

(with 56 registered patches, see perl -V for more

detail)

因为之前各种安装软件,所以这些软件我现在都是已经安装好了的。

安装interproscan5

1获得InterProScan

software core(针对我的64位机)

mkdir

my_interproscan

cd my_interproscan

wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.2-45.0/interproscan-5.2-45.0-64-bit.tar.gzwget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.2-45.0/interproscan-5.2-45.0-64-bit.tar.gz.md5 #

Recommended checksum to confirm the download was

successful:-c

interproscan-5.2-45.0-64-bit.tar.gz.md5# Must return

*interproscan-5.2-45.0-64-bit.tar.gz: OK*#

If not - try downloading the file again as it may be a corrupted

copy.

因为文件比较大,所以用md5值检验了下载是否完整。4.8G啊

解压缩

# where:

# p = preserve the file permissions

# x = extract files from an archive

# v = verbosely list the files processed

# z = filter the archive through gzip

# f = use archive file

下载Panther Models到刚解压缩的文件的子目录/data下面

cd [InterProScan5 home]/data/

wget

ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-8.1.tar.gz.md5

这个文件大小大概为12 GB,下载结束后需要检查一下MD5

md5sum -c panther-data-8.1.tar.gz.md5

出现# This must return *panther-data-8.1.tar.gz:

OK*证明下载的没问题,否则重新下载

解压缩

tar -pxvzf panther-data-8.1.tar.gz

如果想把这个放在其他的文件的话,可以修改[InterProScan5

home]/interproscan.properties 文件,改下面的东西

panther.models.dir.8.1=PATH_TO/panther/8.1/model

3. 使用Pre-calculated Match Lookup 服务器

The

pre-calculated match lookup网页服务器能够提供超过3千万蛋白序列的比对,包括所有的UniProtKB蛋白序列.

InterProScan 5使用这个服务器能够加速本地服务器的速度。这是这个版本的特低昂要想使用这个服务器的话,需要电脑能上网:http://www.ebi.ac.uk

to use it.

如果你的电脑防火墙阻止访问这个网站,你课以下载本地化的InterProScan 5 lookup

service()或者关掉这个功能关掉这个功能的时候,你可以在命令行加入-dp

或者修改interproscan.properties 在前面加一个#注释掉即可

precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup

如何使用interproscan

可以运行其提供的例子: ./interproscan.sh -i test_proteins.fasta

-f  tsv

会得到tsv格式的结果,里面包含了很多数据库Gene3d,

PIRSF,PRINTS,PANTHER,SUPERFAMILY,PFAM,TIGERFAM等比对的结果。

如果运行不了,请参考该网页提供的问题解决方案:

Cd /interproscan

可以直接在终端输入./interproscan.sh,你会看到用法信息

-appl 单独分析,没有这个的话,所有的结果都将呈现

指定数据库,可以不加数据库的版本

./interproscan.sh -appl PfamA -i

/path/to/sequences.fasta

If you wish to specifically run two or more analyses you

can include multiple -appl arguments:

也可以指定多个数据库

./interproscan.sh -appl PfamA-27.0 -appl PRINTS-42.0 -i

/path/to/sequences.fasta

or you can use a single -appl option with a

comma-separated list of analyses:

或者可以通过,把多个数据放在一起。

./interproscan.sh -appl PfamA,PRINTS -i

/path/to/sequences.fasta

A list of all available analyses is in the section

"Included Analyses"

-b base output filename指定生成文件路径,跟-o效果一样,如果不加,默认的名字和路径。自动往生成文件名加指定文件后缀。

-d output directory, 跟-b ,-o互斥,

-dp

关闭precalculated match lookup

service,默认的是开启。根据md5值来快速检验这上传的数据是否已经被注释了,如果是已经注释了就直接出结果。节省时间。

-f

输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and

SVG。蛋白默认的格式为

TSV,

XML 和 GFF3, 核酸的格式之前为GFF3 和XML,现在都可以了哦。

./interproscan.sh -f XML -f HTML -i /path/to/sequences.fasta

-b /path/to/output_file

or

./interproscan.sh -f XML, HTML -i /path/to/sequences.fasta -b

/path/to/output_file

-i

输入的为fasta格式文件。

-goterms开启GO注释,但前面要加上-iprlookup参数

-iprlookup开启interpro注释

-ms

最小核酸ORF的大小,如果设置的小的话,花的时间会长。

-o

跟前面的-b.-d不能同时出现,如果设置了这个,就必须设置-f

-pa

开启可能的代谢注释

-T

默认的临时文件在/tmp,这个是可以设置临时文件的位置

-t

输入序列的类型。默认的是蛋白, 可以为dna或者为rna

涉及到的数据库:

可以直接用的。

TIGRFAM-XX.X : TIGRFAMs

基于隐马尔可夫模型的蛋白家族库

ProDom-XXXX.X: ProDom

是由UniProt Knowledge Database自动生成的蛋白域家族。

Panther-X.X : The PANTHER (Protein

ANalysis THrough Evolutionary Relationships)是一个独立的根据功能来分类平台,使用已公布的实验证据和进化关系来预测没有直接实验证据的基因的功能,

SMART-X.X : SMART 可以用来鉴别和分析基于隐马尔可夫模型的域构架PrositeProfiles-XX.XX : PROSITE 包含描述蛋白域,家族,功能位点和关系的入口文件,用来

区别这些蛋白的编号。

PrositePatterns-XX.X.XX :同上

SuperFamily-X.XX :

SUPERFAMILY可以给核酸和蛋白做功能和结果注释的数据库。PRINTS-XX.X : A fingerprint是一个保守的模型用来描述蛋白家族。Gene3d-X.X.X :通过使用

CATH域结构数据库来对全基因和基因组进行结构分析

PIRSF-X.XX : The PIRSF是用来但做一个指导把UniProtKB序列进行无重叠和深度分类,来反映他们进化关系

PfamA-XX.X : 一大类蛋白家族,每一个代表对序列比对和隐马尔可夫的结果。

HAMAP-XXXXXX.XX : High-quality Automated

and Manual Annotation of Microbial Proteomes高质量自动注释和手工注释微生物的蛋白组

Coils-X.X :对蛋白组卷曲螺旋区域的预测

无效的分析:

SignalP-GRAM_NEGATIVE-X.X : Analysis

SignalP-GRAM_NEGATIVE-X.X is deactivated, because the following

parameters are not set in the interproscan.properties file:

binary.signalp.X.X.path

SignalP-GRAM_POSITIVE-X.X : Analysis

SignalP-GRAM_POSITIVE-X.X is deactivated, because the following

parameters are not set in the interproscan.properties file:

binary.signalp.X.X.path

SignalP-EUK-X.X : Analysis

SignalP-EUK-X.X is deactivated, because the following parameters

are not set in the interproscan.properties file:

binary.signalp.X.X.path

Phobius-X.XX : Analysis Phobius-X.XX is

deactivated, because the following parameters are not set in the

interproscan.properties file:

binary.phobius.pl.path.X.XX

TMHMM-X.Xc : Analysis TMHMM-X.Xc is deactivated, because

the following parameters are not set in the interproscan.properties

file: binary.tmhmm.path

核酸序列的扫描

Emboss getorf.是内嵌在interproscan中的基因预测的软件,如果你想本地安装这个软件的话,必须修改interproscan.sh

script

# set environment variables for getorf

export EMBOSS_ACDROOT=bin/nucleotide

export EMBOSS_DATA=bin/nucleotide

如果输入的是核酸序列,在运行命令的时候需要加入-t这个参数

./interproscan.sh -t n -i

/path/to/nucleic_acid_sequences.fasta

格式转换

可以将xml转化为其他的格式,注意哦,仅仅是转化xml格式

./interproscan.sh -mode convert -f tsv,gff3,svg -i

/path/to/impact.xml -o /path/to/output_file_basename

参考资料:

ps:没什么要说的,他们这个官网的介绍真新详细,这是目前我唯一从头看到尾的一份说明说,翻译理解水平有限,查证的话可以看官网的说明。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值