蛋白质的空间结构是其行使功能的基础,所以蛋白质既有序列数据库还有结构数据库。
蛋白质序列数据库
蛋白质序列数据库有很多,如SwissProt,TrEMBL,Pir等。
Pir是世界上第一个具有分类和功能注释的蛋白质序列数据库。
SwissProt包括了从EMBL翻译而来的蛋白质序列,经过人工校验和注释,冗余度较小。
为了解决人工注释较慢的问题,建立了由计算机注释的TrEMBL数据库,该数据库序列由EMBL中核酸序列翻译而来,其中剔除了包含在SwissProt数据库中的蛋白质序列。
UniProt数据库
整合了SwissProt,TrEMBL,Pir三家数据库的资源构建了通用蛋白质数据库。
UniProt分为三层:
- UniParc
由于蛋白质序列冗余,将序列相同的合并为一条,为每条序列提供唯一的编号。
- UniRef
为了加快检索速度,将UniParc中的序列根据一定的条件进行分类并去除冗余。
- UniProtKB
分为UniRef/TrEMBL和UniRef/SwissProt两部分,为其提供序列的详细信息。
蛋白质结构数据库
蛋白质空间结构
一级:组成蛋白质的氨基酸序列。
二级:由氨基酸序列在空间构成的有规律的结构,一般依靠氢键,疏水键等非共价键维持空间结构,如α螺旋,β折叠。
结构域:介于二级和三