原标题:蛋白编码能力预测软件pfam流程
一、分析背景
蛋白一般由一个或多个功能域所组成,在不同蛋白质组合中出现的不同结构域导致了自然界中蛋白质复杂的多样性。鉴定一个蛋白中的结构域有助于更深入地理解蛋白功能。Pfam是一个大型蛋白结构域家族的数据库,每个蛋白家族都由多个序列比对和HMMs(hidden Markovmodels,隐马尔可夫模型)所体现。最新版本为27.0(2013年3月,包含14831个蛋白家族)
Pfam包括两个质量级别的家族数据库:Pfam-A和Pfam-B。Pfam-A来自基础序列数据库Pfamseq,是根据最新的UniProtKB数据建立的,质量较高。Pfam-B做为Pfam-A的补充,是一个未注释的低质量数据库,一般是由ADDA数据中的非冗余cluster自动生成的。虽然质量较低,但对于鉴定Pfam-A无法覆盖到的功能保守区域是非常有用的。
二、软件安装
1. HMMER3:,使用以下命令安装:
tarzxf hmmer-3.1b1.tar.gz
cdhmmer-3.1b1
./configure
make
makecheck
makeinstall
2. Perl语言的Moose包:使用cpanMoose命令安装,或到CPAN下载安装
3. 分析工具PfamScan,下载:,使用以下命令安装:
tarzxvf PfamScan.tar.gz
exportPATH=/path/to/install/hmmer3/bin:$PATH
exportPERL5LIB=/path/to/pfam_scanD