pfam基本介绍,以及蛋白质序列下载

Pfam网站地址:http://pfam.xfam.org/


主页面

1. 检索

在这里插入图片描述

  1. 序列搜索:分析您的蛋白质序列以进行Pfam匹配
  2. 查看PFAM条目:查看Pfam批注和对齐方式
  3. 查看一个clan:查看相关条目组
  4. 查看序列:查看蛋白质序列的结构域组织
  5. 查看结构:在PDB结构上查找域
  6. 关键词搜索:
  7. 通过PFAM号检索:

2. 浏览

在这里插入图片描述
其中一些关键词:

Domain: 一个结构单元 Motif: A short unit found outside globular domains
CLAN: 对多个family进行相似性分析,将具有相似的三维结构或者相同motif的family归为一个clan,
可以看做是superfamily的概念,每个clan以CL编号标识。
proteones:物种的蛋白质组信息,就是该物种内所有的蛋白质family 信息


3. 家族选择

上图中选择了“top twenty”,出现的是序列数量前20的家族(family)
在这里插入图片描述

  1. ID:家族id
  2. Accession:PF号,每个家族稳定的唯一标志
  3. 家族类型:分为Domain,Family,Repeat,Motifs,Coiled-Coil,Disordered
  4. 序列数量:seed:number of regions in the seed alignment.
    full: number of regions in the full alignment
  5. 平均长度:完全比对后氨基酸区域的平均长度
  6. 平均%id:Average percentage identity of sequences in the full alignment
  7. 平均覆盖率:pfam条目覆盖整个序列长度的分数 fraction of whole sequence length that pfam entry covers
  8. 有无3d:
  9. 修改状态:与上个版本是否有改变
  10. 描述

5. 家族介绍

随便点开一个蛋白质家族是这样一个场景
在这里插入图片描述

  1. 为家族名称以及家族的PF号
  2. 是该家族在维基百科中的介绍页面
  3. 是两处,点击之后出现的是相同的页面,即比对序列及下载。

5. 序列下载

在这里插入图片描述

1. format an alignment:
1.1 Alignment: 选择算法
1.2 Format: 选择文件格式:这里选择fasta文件
1.3 Order: 选择顺序,alphabetical是按蛋白质序列首字母顺序排序的。
1.4  Sequence: 全大写字母,或是插入小写(不知道意义)
1.5 Gaps:对齐序列插入 可以选择“-”,“.”或者mix两者都有或者不插入
1.6 Download/view: 选择下载还是视图中查看

其中,有些家族过大是没法进行序列比对的,所以在Alignment上会有一些地方不能勾选。

2. Download

下载未比对过的全长度fasta格式的文件,并用.gzip打包。

  • 7
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
你可以使用R中的一些生物信息学包来可视化细菌蛋白质序列。以下是一个简单的示例: 1. 首先,你需要从NCBI网站下载你感兴趣的细菌蛋白质序列的FASTA文件。 2. 通过Biostrings包将FASTA文件读入R中。 ```R library(Biostrings) protein_seq <- readDNAStringSet("protein.fasta") ``` 3. 使用ggplot2包创建一个基本序列图,并使用Biostrings包中的AAString函数将氨基酸序列转换为字符向量。 ```R library(ggplot2) library(dplyr) protein_df <- data.frame(seq = AAString(protein_seq)) protein_df <- protein_df %>% mutate(pos = row_number()) ggplot(protein_df, aes(x = pos, y = 1, label = seq)) + geom_text(size = 6, family = "mono") + theme_void() ``` 4. 如果你想添加一些注释,如保守性和功能域信息,可以使用biomaRt和PFAM包来获取相关数据,并将其添加到序列图中。 ```R library(biomaRt) library(PFAM) mart <- useMart("ensembl", dataset = "bacteria") protein_info <- getBM( attributes = c("start_position", "end_position", "strand", "gene_biotype"), filters = "ensembl_peptide_id", values = names(protein_seq), mart = mart ) pfam_df <- search_pfam(protein_seq) protein_df <- protein_df %>% left_join(protein_info, by = c("pos" = "start_position")) %>% left_join(pfam_df, by = c("pos" = "start")) ggplot(protein_df, aes(x = pos, y = 1, label = seq)) + geom_text( aes(color = ifelse(!is.na(pfam_id), pfam_id, "NA")), size = 6, family = "mono" ) + scale_color_brewer(palette = "Set1") + theme_void() ``` 这个示例只是一个简单的开始,你可以使用其他包和自定义代码来创建更复杂的细菌蛋白质序列可视化。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值