数据库(1)--UniProt蛋白数据库

1.数据库介绍

数据库UniProticon-default.png?t=O83Ahttp://www.uniprot.org/

Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三大数据库的资源。

EBI( European Bioinformatics Institute):欧洲生物信息学研究所(EMBL-EBI)是欧洲生命科学旗舰实验室EMBL的一部分。位于英国剑桥欣克斯顿的惠康基因组校园内,是世界上基因组学领域最强的地带之一。
SIB(the Swiss Institute of Bioinformatics):瑞士日内瓦的SIB维护着ExPASy(专家蛋白质分析系统)服务器,这里包含有蛋白质组学工具和数据库的主要资源。
PIR(Protein Information Resource):PIR由美国国家生物医学研究基金会(NBRF)于1984年成立,旨在协助研究人员识别和解释蛋白质序列信息。

收录子数据库

①收录子数据库UniParc,收录了所有 UniProt 数据库子库中的蛋白质序列,量大,粗糙。

②收录子数据库UniRef,归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。

③收录子数据库UniProtKB,有详细注释并与其他数据库有链接,分为 UniProtKB 下的 Swiss-Prot和 UniProtKB 下的 TrEMBL 数据库,我们最常用的就是 UniProtKB下的 Swiss-Prot 数据库。 其中TrEMBL 数据库里存储的序列数量远远大于 Swiss-Prot ,TrEMBL 是自动注释的,没有经过检查,而 Swiss-Prot 是人工注释的,并且经过检查。

在搜索条,选择UniprotKB 数据库,然后输入“想要查询的蛋白名称”。

2.序列展示

可以看到,Entry 这一列是蛋白质序列在 UniProtKB 数据库中的检索号。Entry_Name 是检索名。从检索名可以更直观的知道是哪个物种的什么蛋白质。加星文档图标(Entry_Name前一列)我们可以获知序列是被人工检查过的还是没有,也就是说,有加星文档图标的是 Swiss-Prot 中的数据,没有的是 TrEMBL 里的。后面这几列,依次是蛋白质的名字,编码这一蛋白质的基因的名字,所属物种以及序列长度

点击需要的蛋白质前面的框框,进行对应的fasta蛋白序列的下载。

注释信息:sp:Swiss-Prot数据库的简称,也就是上面说的验证后的蛋白数据库;P40763:UniProt ID号;STAT3_HUMAN:是UniProt 的登录名;Signal transducer and activator of transcription 3:蛋白质名称; OS=Homo sapiens:OS是Organism简称,Homo sapiens为人的拉丁文分类命名,也就是这是人的蛋白质; OX=9606:Organism Taxonomy,也就是物种分类数据库Taxonomy ID;GN=STAT3:Gene name,基因名为STAT3;PE=1:Protein Existence,蛋白质可靠性,对应5个数字,数字越小越可靠:1:Experimental evidence at protein level;2:Experimental evidence at tranlevel;3:Protein inferred from homology;4:Protein predicted;5:Protein uncertain;SV=2:Sequence Version,序列版本号。

3.结构展示

点击第一列检索号,打开这条数据库记录。

UniProtKB 中的数据库记录分成几个部分,左侧是注释标签,点击其中某一个标签可以直接跳转到该部分注释。中间是工具标签,可以用于和其他序列进行比较,格式转换,存储等。最上方是这条蛋白质序列的基本信息,蛋白质的名字,基因的名字,状态,所属物种,氨基酸长读。左上角有加星文档图标,是被人工检查过的,应该属于 Swiss-Prot 数据库。右小角注释打分 5 星,说明注释得很全面,并且这些注释在蛋白质水平上有实验依据。

Function该板块会罗列出蛋白的基本功能及参与的生物学过程,这应该也是科研人员最关心的问题,具体的序列和结构只是为了方便研究或者更加深入理解蛋白的功能。每句介绍后的链接即是相应的参考文献( Publications),可以根据需要点击查阅。“By similarity”链接到最相似的蛋白,往往是不同种属中的相同蛋白,也就是同源蛋白(直系同源基因是同源基因,进化后分化形成不同的物种,这种现象被称为物种形成。这些基因通常与它们进化而来的祖先基因保持着相似的功能)。很多蛋白在进化过程中是高度保守的,也就是说他们的蛋白序列非常相似或者相同,这一类蛋白往往有非常强大的功能,参与多种生命活动或生物学功能。

Names & Taxonomy展示的是该蛋白的命名(基因名称、同义词)和来源种属信息以及NCBI 和 Enzembl 的基因数据库链接。如有需要,可以直接点击或去 NCBI 和 Enzembl 数据库查阅。

Subcellular Location包含蛋白的细胞亚定位信息,从图中我们可以看出mTOR主要分布在溶酶体、高尔基体、线粒体、内质网、细胞核。

Disease & Variants:该蛋白涉及的疾病与变异。

PTM/Processing提供蛋白质翻译后修饰或翻译后加工的相关信息。

Expression提供了基因在 mRNA 水平上的表达信息,或者在细胞中蛋白质水平上的表达信息,或者在不同器官组织中的表达信息。

Interaction提供了蛋白质之间相互作用的信息。包括 UniProtKB 中直接与这个蛋白质有两两相互作用的蛋白质序列的链接,以及这个蛋白质在各种蛋白质相互作用数据库或蛋白质网络数据库中涉及的数据库记录链接。

Structure提供蛋白质二级结构和三级结构信息。只有那些已通过实验方法测定三级结构并且已提交到蛋白质结构数据库 PDB 的蛋白质才有结构注释。二级结构以图形拓扑的形式呈现。三级结构列出了该蛋白质在蛋白质结构数据库 PDB 中涉及的数据库记录链接。这些结构经常只对应蛋白质的部分序列。

Family & Domains提供蛋白质家族及结构域信息。

Sequence & Isoforms提供蛋白质氨基酸序列信息。含有多个异构体的蛋白质会显示多条序列。

Similar Proteins:在 UniRef 数据库里找到与该蛋白质在序列水平上相似的其他蛋白质,并按相似度高低分组。

新页面下直接选择Structure。

右侧可以看到蛋白结构分子图,下面有一个列表给我们快速查看相关参数。

可以根据这些参数选择合适的结构,注意resolution这一栏,我们首先选择resolution小的,但结构不是我们要的,就不行。positions这一栏只是该结构只是该蛋白的序列区段,比如这里1-143这一段氨基酸序列是不在该结构中的。我们需要根据一些文献知识,了解一般配体所在的部位即相关活性位点。有没有已知的结合区域来参考选择,我个人认为,如果不知道,越长的越好。有的还是多条肽链的复合物,如果是二聚体的,后面对接可以删除一个。

总之,需要先了解这些所解析的晶体结构是否已经包含了拟对接分子的潜在结合位点,已知的配体和我们要对接的分子结构相似度。越相似越好,还需注意晶体结构中蛋白序列是否为野生型、是否含有PTM、是否存在有可能引起构象变化的特殊有机溶剂和别构效应分子等。如果系列晶体结构的性质都类似,选择分辨率最高的。

点击RCSB-PDB链接。

可以查询到PDB蛋白数据库的蛋白信息,并在右上角选择PDB格式进行下载,进行后续研究。

参考文章:

一文极速读懂UniProt数据库-CSDN博客

分子对接教程 | (2) 选择合适的蛋白受体-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值