linux下pfam使用方法,使用pfam-scan进行预测

一、 安装

使用conda安装Pfam_scan

$ conda create -n pfam_scan ##可新建一个环境,用于安装pfam-scan

$ source activate pfam_scan

$ conda install pfam_scan

pfam_scan依赖bioperl,因此,通过conda安装简单快捷.

安装hmmer3 , 使用以下命令安装:

$ wget http://eddylab.org/software/hmmer/hmmer-3.2.tar.gz

$ tar -xzvf hmmer-3.2.1.tar.gz

$ cd hmmer-3.2

$ ./configure

$ make

$ make check

$ make install

# 添加至环境变量

vim ~/.bashrc

export PATH=/usr/local/bin:$PATH

# 环境变量立即生效

source ~/.bashrc

最新版的Pfam数据库不再有Pfam-B了。

wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.gz

wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.dat.gz

wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/active_site.dat.gz

gunzip *.gz

通过hmmerspress来把下载的数据建库:

$ hmmpress Pfam-A.hmm

二、软件使用

参数说明:

-dir : Pfam_data_file_dir 包含Pfam数据文件的目录[必须]

-fasta : fasta_file 包含序列的输入文件名 [必须]

-e_seq 序列E-value阈值 [不指定则使用默认阈值]

-e_dom 结构域E-value阈值 [不指定则使用默认阈值]

-b_seq 序列bit score阈值 [不指定则使用默认阈值]

-b_dom 结构域bit score阈值[不指定则使用默认阈值]

-align 在结果中显示比对片段 [默认关闭]

-as 预测Pfam-A数据库匹配的active sites[默认关闭]

-json [pretty] 输出结果使用JSON格式。例如指定值为[pretty],则输出结果会使用"pretty" JSON格式输出 [默认关闭]

-cpu 并行工作的CPU数目 [默认全部]

-translate [mode] 将输入序列视为DNA,并在搜索前使用6框翻译的方法进行转换。如果翻译模式[mode]被指定,则必须为"all"或者"orf"。"all"表示完整翻译,包括终止子并且不产生单独的ORFs;"orf"表示只翻译和报告长度大于20的ORFs。

如果使用了翻译参数而没有指定翻译模式,则默认使用"orf"模式。[默认关闭]

例子

$ pfam_scan.pl -fasta ~/protein1.fa -dir ~/bio_softs/Pfam-A.hmm/ -outfile results_3.fa -as

三、结果格式

fb3bd3de1c38

image

pfamscan蛋白结构域部分分析结果说明如下:

(1) seq_id:转录本ID+[0,1,2],不存在于列表中的转录本为noncoding

(2) hmm start:比对到结构域的起始位置

(3) hmm end:比对到结构域的终止位置

(4) hmm acc:比对到pfam结构域的ID

(5) hmm name:pfam结构域名称

(6) hmm length:pfam结构域的长度

(7) bit score:比对打分分值

(8) E-value:比对的E值,pfam结构域筛选的条件是: Evalue < 0.001

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你可以使用R中的一些生物信息学包来可视化细菌蛋白质序列。以下是一个简单的示例: 1. 首先,你需要从NCBI网站下载你感兴趣的细菌蛋白质序列的FASTA文件。 2. 通过Biostrings包将FASTA文件读入R中。 ```R library(Biostrings) protein_seq <- readDNAStringSet("protein.fasta") ``` 3. 使用ggplot2包创建一个基本的序列图,并使用Biostrings包中的AAString函数将氨基酸序列转换为字符向量。 ```R library(ggplot2) library(dplyr) protein_df <- data.frame(seq = AAString(protein_seq)) protein_df <- protein_df %>% mutate(pos = row_number()) ggplot(protein_df, aes(x = pos, y = 1, label = seq)) + geom_text(size = 6, family = "mono") + theme_void() ``` 4. 如果你想添加一些注释,如保守性和功能域信息,可以使用biomaRt和PFAM包来获取相关数据,并将其添加到序列图中。 ```R library(biomaRt) library(PFAM) mart <- useMart("ensembl", dataset = "bacteria") protein_info <- getBM( attributes = c("start_position", "end_position", "strand", "gene_biotype"), filters = "ensembl_peptide_id", values = names(protein_seq), mart = mart ) pfam_df <- search_pfam(protein_seq) protein_df <- protein_df %>% left_join(protein_info, by = c("pos" = "start_position")) %>% left_join(pfam_df, by = c("pos" = "start")) ggplot(protein_df, aes(x = pos, y = 1, label = seq)) + geom_text( aes(color = ifelse(!is.na(pfam_id), pfam_id, "NA")), size = 6, family = "mono" ) + scale_color_brewer(palette = "Set1") + theme_void() ``` 这个示例只是一个简单的开始,你可以使用其他包和自定义代码来创建更复杂的细菌蛋白质序列可视化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值