string数据库使用和实践第一部分string数据库介绍

最新推荐文章于 2025-05-01 16:23:00 发布

mystrugglelife

最新推荐文章于 2025-05-01 16:23:00 发布

阅读量4.5w

点赞数 7

分类专栏：生物信息文章标签： 1

生物信息专栏收录该内容

9 篇文章

订阅专栏

背景

为什么要寻找蛋白质互做关系？

因为只有正确地发现和注释细胞中的所有功能性的相互作用关系，才能对细胞的功能进行系统层面的学习和理解。

大家在收集和展现蛋白质相互作用的信息上，一直在努力地跟上相互作用关系探索的步伐

近年来，无论是在实验观测和计算机预测技术都得到了显著的进步。但是，蛋白质蛋白质相互作用的信息比较容易出错，而且乣相当大的工作量来进行注释

资源分类？

1有些数据库，他们的主要目的是收集和策展与蛋白质-蛋白质相互作用直接相关的实验证据

2.另外还有些数据库会通过功能分组，将蛋白质分为代谢、信号或转录途径等这些更加广义的角度来了解蛋白质之间的关联

3.最后就是第三类资源，通过尝试使用多种计算的技术来预测新的蛋白质-蛋白质之间的相关性，从而弥补前两种数据库的不足之处

string数据库正是一个整合提供这三种蛋白质-蛋白质关联性证据的平台

string database介绍

string(search tool for the retrival of interacting genes/proteins)基因、蛋白质相互作用关系检索工具

它能够帮助用户轻松获取独特的，覆盖范围广的实验以及预测的相互作用关系信息

string提供的相互作用关系主要基于confidence score（可靠指数），以及其他附属信息，比如提供蛋白质域和3D结构

string目前的9.1版本，包括1100+个物种的5200+万蛋白质

联合开发的机构包括：CPR,EMBL,SIB,KU,TUD,UZH

功能

1.主要目的是构建蛋白质蛋白质相互作用网络

2.该网络可以用于过滤和评估功能性基因组学的数据，以及为注释蛋白质的结构、功能和进化性提供一个比较直观的平台

3.探索预测的相互作用网络，能够为今后的直言研究提供新方向，并且能够为相互作用的映射，提供物跨物种预测

4.所有的蛋白质相互作用关系数据都有被加权、整合，并且都会有一个计算得到的可靠值

5.所有计算的预测结果都能通过特定的视图来查看

6.网页界面可用来访问数据，并能够快速获取蛋白质及他们之间的相互作用关系的概览

优势

1.string数据库完全是预先计算好的，无论是在高层次的网络中，还是单个相互作业关系记录的界面，所有的信息都可以被迅速获取

2.它还支持单独选择各种证据类型，这样能够在运行的时候进行定制的搜索，同时也会有专门的查看器来对所有的关联证据进行查看

3.该数据库是一项探索性的资源：它比基本的相互作用关系数据库包含了更大的关联数据--尽管是有不同的可能值

4.因此，它最好被用于快速、初步地获取要查询的蛋白质的功能合作伙伴，尤其是对那种还没能很好的表征的蛋白质

数据库介绍

string数据库通过文献内容管理，来提取实验数据得出的蛋白质-蛋白质相互作用关系。此外，string数据库还存储得有一些计算预测的相互作用关系：

1.科学文章的文本挖掘

2.从基因组的特征计算得来的相互作用关系

3.基于直系同源的物种模型转移来的相互作用关系

所有预测的活着导入的功能性关系对，都是以及各通用的参考数据库为基准来进行注释

导入的数据

string数据库的蛋白质关联信息，有一些是从物理相互作用数据库，以及生物通路的信息数据库导入的

准确的数据：

KEGG EcoCyc BIioCyc GO reactome Biocarta NCI-Nature Pathway Interaction Database

实验数据：

MINT HPRD BIND DIP PID BioGRID

文本挖掘

string数据库的有些信息是通过文本挖掘的方式收集的。通过对庞大的科学文章的解析，来搜寻到统计相关的共现基因的名字

SGD：Saccharomyces

OMIM:Online Mendelian Inheritance in Man

FlyBase:A Database of Drophila Genes &Genomes

PubMed:A search engine accessing primarily the MEDLINE database of references and abstracts on life sciences and biomedical topics

预测的数据

string数据库中，还有一些数据是通过预测得来的

Neighborhood：不同物种之间，相似的基因组信息预示着相似的蛋白质功能

Gene Fusion:某些基因组中的蛋白质的融合，有很大可能性是具有功能性相关的

Co-occurrence:如果蛋白质有相似的功能，或者出现在同一个代谢通路中，那他们应该是会具有相似的表达模式的，以及相似的系统发生谱

Co-expression:基于观察到的具有相同表达模式的基因，来预测基因之间的相关性

基因组信息

算法介绍

很大一部分的string的数据是从之前介绍的各种数据库中导入的。同时，他也包含了大量的预测的关联性

string数据库会定期导入完整测序的基因组序列（多细胞基因组：Ensembl,其他：SwissProt/UnitProt),并从中搜索这三种基因组信息。目的就是为了识别在进化过程中，也许具有一定功能相关联的基因对。

string数据库中，使用Confidence Score可靠指数来对应每一个预测的相互关联性

算法优势

将多种类型的证据数据映射到单一的、稳定的蛋白质组中，从而更有利于数据的比较

将已知预测的相互作用关系进行了部分互补，从而扩大覆盖的范围

综合打分的方案比独立的证据认可，具有更高的可靠性

并映射和传输相互作用关系到大量的生物体中，有利于进化的研究

算法总结

算法

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。