山大公开课笔记2

第五节 蛋白质数据库

一、一级蛋白质数据库

  1. 一级蛋白质序列数据库
    swissprot、TrEMBL、PIR 三者共同构成UNIPROT
    (1)swissprot: 一个人工注释的蛋白质序列数据库,拥有注释可信度高、冗余度小的优点。由欧洲生物信息学研究生EMBL-EBI与瑞士生物信息学研究生SIB共同管理。
    (2)TrEMBL(translation from EMBL): 一个计算机注释的蛋白质序列数据库,它包含EMBL核酸序列数据库中的为蛋白质编码的核酸序列(CDS)的所有翻译产物,并把已包含在Swissprot中的序列提出。但可信度低且冗余度大
    (3)PIR(Protein Information Resource): 一个支持基因组学,蛋白质组学和系统生物学研究的综合公共生物信息学资源。
    (4)UniProt(Universal Protein Resource): 将上述三大蛋白数据库联合 http://www.uniprot.org
    UniProt三个层次数据库:
    UniParc: 收录所有UniProt数据库子库中的蛋白质序列, 量大,粗糙。
    UniRef: 归纳UniProt几个主要数据库并将重复序列去除后的数据库。
    UniProtKB: 有详细注释并与其他数据库有链接的数据库,分为UniProtKB/Swiss-Prot(最常用)和UniProtKB/TrEMBL
    可保存为纯文本格式,条目索引参照:
  2. 一级蛋白质结构数据库
    PDB
    基本信息部分
    HEADER: 分子类别,存储日期,PDB ID
    TITLE: 一般为相关文献
    COMPND:对各个分子的描述
    SOURCE:结构中包括的每一个分子的实验来源
    KEYWDS: 一系列关键词,可用于数据库搜索
    EXPDTA:测定结构所采用的试验方法
    AUTHOR:
    REVDAT: 历史上曾经对该数据库记录进行过的修改

    一级结构信息部分
    氨基酸序列、残基修饰等
    二级结构信息部分
    3D坐标部分
    Download
    PDB自带的形成3D结构的可视化软件:JSmol

二、二级蛋白质数据库
SCOP, PRINTS, CATH, STRING, prosite,Pfam
Pfam:是一个蛋白质结构域家族的集合。
SEARCH:输入.fasta格式的蛋白质文件,找到结构域
CATH:蛋白质结构分类数据库(名字是四种结构分类层次的首字母)
(1)蛋白质种类(class, C)
分为四类:全α型,全β型,α+β型,低二级结构型
(2)蛋白质二级结构的构架(architecture, A)
螺旋和折叠形成的超二级结构排列方式,不考虑他们之间的连接关系。
(3)蛋白质的拓扑结构(topology[fold], T)
二级结构的形状和二级结构间的联系
(4)蛋白质同源超家族(homologous superfamily, H)
先通过序列比较,然后用结构比较确定的同源性分类。

分类对象是PDB中存储的那些已经测定结构的蛋白质结构域,既使用计算机程序,也进行人工检查。
SCOP2:更多考虑蛋白质之间的进化关系,分类主要基于人工验证。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值