(二)使用蛋白质(核酸)序列搜索已构建HMM数据库
该方法为常用的功能注释方法。
构建HMM数据库。使用多序列比对文件,同上述命令即可完成构建。同时可以从Pfam、SMART等网站下载现成额HMM。举个例子,假如我有一批蛋白质序列,想做Pfam注释,看看有什么结构域,那么我可以去Pfam下载下述文件:
ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam31.0/Pfam-A.hmm.gz
使用hmmscan搜索HMM数据库,命令如下:
hmmscan -E 0.00001 --domE 0.00001 --cpu 2 --noali --acc --notextw --domtblout pfam.tab Pfam-A.hmm test.pep.fa
三、输出结果介绍
主要介绍两种格式
--domtblout
--tblout
输出结果中分为两类一类是针对序列的(full sequence) ,另一类是针对domain的(主要基于一条序列存在多个domain)。这两种格式涉及到的每一列信息解释如下(英文原文大家看的可能更明白!)
(1) target name: The name of the target sequence or profile.
(2) accession: The accession of the target sequence or profile, or ’-’ if none.
(3) query name: The name of the query seque