第五节 蛋白质数据库
一、一级蛋白质数据库
- 一级蛋白质序列数据库
swissprot、TrEMBL、PIR 三者共同构成UNIPROT
(1)swissprot: 一个人工注释的蛋白质序列数据库,拥有注释可信度高、冗余度小的优点。由欧洲生物信息学研究生EMBL-EBI与瑞士生物信息学研究生SIB共同管理。
(2)TrEMBL(translation from EMBL): 一个计算机注释的蛋白质序列数据库,它包含EMBL核酸序列数据库中的为蛋白质编码的核酸序列(CDS)的所有翻译产物,并把已包含在Swissprot中的序列提出。但可信度低且冗余度大。
(3)PIR(Protein Information Resource): 一个支持基因组学,蛋白质组学和系统生物学研究的综合公共生物信息学资源。
(4)UniProt(Universal Protein Resource): 将上述三大蛋白数据库联合 http://www.uniprot.org
UniProt三个层次数据库:
UniParc: 收录所有UniProt数据库子库中的蛋白质序列, 量大,粗糙。
UniRef: 归纳UniProt几个主要数据库并将重复序列去除后的数据库。
UniProtKB: 有详细注释并与其他数据库有链接的数据库,分为UniProtKB/Swiss-Prot(最常用)和UniProtKB/TrEMBL
可保存为纯文本格式,条目索引参照: - 一级蛋白质结构数据库
PDB
基本信息部分:
HEADER: 分子类别,存储日期,PDB ID
TITLE: 一般为相关文献
COMPND:对各个分子的描述
SOURCE:结构中包括的每一个分子的实验来源
KEYWDS: 一系列关键词,可用于数据库搜索
EXPDTA:测定结构所采用的试验方法
AUTHOR:
REVDAT: 历史上曾经对该数据库记录进行过的修改
…
一级结构信息部分
氨基酸序列、残基修饰等
二级结构信息部分
3D坐标部分
Download
PDB自带的形成3D结构的可视化软件:JSmol
二、二级蛋白质数据库
SCOP, PRINTS, CATH, STRING, prosite,Pfam
Pfam:是一个蛋白质结构域家族的集合。
SEARCH:输入.fasta格式的蛋白质文件,找到结构域
CATH:蛋白质结构分类数据库(名字是四种结构分类层次的首字母)
(1)蛋白质种类(class, C)
分为四类:全α型,全β型,α+β型,低二级结构型
(2)蛋白质二级结构的构架(architecture, A)
螺旋和折叠形成的超二级结构排列方式,不考虑他们之间的连接关系。
(3)蛋白质的拓扑结构(topology[fold], T)
二级结构的形状和二级结构间的联系
(4)蛋白质同源超家族(homologous superfamily, H)
先通过序列比较,然后用结构比较确定的同源性分类。
分类对象是PDB中存储的那些已经测定结构的蛋白质结构域,既使用计算机程序,也进行人工检查。
SCOP2:更多考虑蛋白质之间的进化关系,分类主要基于人工验证。