pfam基本介绍，以及蛋白质序列下载

最新推荐文章于 2025-04-30 14:34:26 发布

SoraShim

最新推荐文章于 2025-04-30 14:34:26 发布

阅读量2.6w

点赞数 9

本文链接：https://blog.csdn.net/Soraa/article/details/112565074

版权

Pfam网站地址：http://pfam.xfam.org/

主页面

1. 检索

在这里插入图片描述

序列搜索：分析您的蛋白质序列以进行Pfam匹配
查看PFAM条目：查看Pfam批注和对齐方式
查看一个clan：查看相关条目组
查看序列：查看蛋白质序列的结构域组织
查看结构：在PDB结构上查找域
关键词搜索：
通过PFAM号检索：

2. 浏览

在这里插入图片描述
其中一些关键词：

Domain: 一个结构单元 Motif： A short unit found outside globular domains
CLAN: 对多个family进行相似性分析，将具有相似的三维结构或者相同motif的family归为一个clan,
可以看做是superfamily的概念，每个clan以CL编号标识。
proteones：物种的蛋白质组信息，就是该物种内所有的蛋白质family 信息

3. 家族选择

上图中选择了“top twenty”，出现的是序列数量前20的家族（family）
在这里插入图片描述

ID：家族id
Accession：PF号，每个家族稳定的唯一标志
家族类型：分为Domain，Family，Repeat，Motifs，Coiled-Coil，Disordered
序列数量：seed：number of regions in the seed alignment.
full: number of regions in the full alignment
平均长度：完全比对后氨基酸区域的平均长度
平均%id：Average percentage identity of sequences in the full alignment
平均覆盖率：pfam条目覆盖整个序列长度的分数 fraction of whole sequence length that pfam entry covers
有无3d：
修改状态：与上个版本是否有改变
描述

5. 家族介绍

随便点开一个蛋白质家族是这样一个场景
在这里插入图片描述

为家族名称以及家族的PF号
是该家族在维基百科中的介绍页面
是两处，点击之后出现的是相同的页面，即比对序列及下载。

5. 序列下载

在这里插入图片描述

1. format an alignment:

1.1 Alignment: 选择算法
1.2 Format： 选择文件格式：这里选择fasta文件
1.3 Order: 选择顺序，alphabetical是按蛋白质序列首字母顺序排序的。
1.4  Sequence: 全大写字母，或是插入小写（不知道意义）
1.5 Gaps：对齐序列插入 可以选择“-”，“.”或者mix两者都有或者不插入
1.6 Download/view： 选择下载还是视图中查看

其中，有些家族过大是没法进行序列比对的，所以在Alignment上会有一些地方不能勾选。