string数据库使用和实践第一部分string数据库介绍

背景
为什么要寻找蛋白质互做关系?

因为只有正确地发现和注释细胞中的所有功能性的相互作用关系,才能对细胞的功能进行系统层面的学习和理解。
大家在收集和展现蛋白质相互作用的信息上,一直在努力地跟上相互作用关系探索的步伐

近年来,无论是在实验观测和计算机预测技术都得到了显著的进步。但是,蛋白质蛋白质相互作用的信息比较容易出错,而且乣相当大的工作量来进行注释
资源分类?

1有些数据库,他们的主要目的是收集和策展与蛋白质-蛋白质相互作用直接相关的实验证据
2.另外还有些数据库会通过功能分组,将蛋白质分为代谢、信号或转录途径等这些更加广义的角度来了解蛋白质之间的关联

3.最后就是第三类资源,通过尝试使用多种计算的技术来预测新的蛋白质-蛋白质之间的相关性,从而弥补前两种数据库的不足之处
string数据库正是一个整合提供这三种蛋白质-蛋白质关联性证据的平台

string database介绍
string(search tool for the retrival of interacting genes/proteins)基因、蛋白质相互作用关系检索工具

它能够帮助用户轻松获取独特的,覆盖范围广的实验以及预测的相互作用关系信息
string提供的相互作用关系主要基于confidence score(可靠指数),以及其他附属信息,比如提供蛋白质域和3D结构

string目前的9.1版本,包括1100+个物种的5200+万蛋白质
联合开发的机构包括:CPR,EMBL,SIB,KU,TUD,UZH

功能
1.主要目的是构建蛋白质蛋白质相互作用网络

2.该网络可以用于过滤和评估功能性基因组学的数据,以及为注释蛋白质的结构、功能和进化性提供一个比较直观的平台
3.探索预测的相互作用网络,能够为今后的直言研究提供新方向,并且能够为相互作用的映射,提供物跨物种预测

4.所有的蛋白质相互作用关系数据都有被加权、整合,并且都会有一个计算得到的可靠值
5.所有计算的预测结果都能通过特定的视图来查看

6.网页界面可用来访问数据,并能够快速获取蛋白质及他们之间的相互作用关系的概览
优势

1.string数据库完全是预先计算好的,无论是在高层次的网络中,还是单个相互作业关系记录的界面,所有的信息都可以被迅速获取
2.它还支持单独选择各种证据类型,这样能够在运行的时候进行定制的搜索,同时也会有专门的查看器来对所有的关联证据进行查看
3.该数据库是一项探索性的资源:它比基本的相互作用关系数据库包含了更大的关联数据--尽管是有不同的可能值
4.因此,它最好被用于快速、初步地获取要查询的蛋白质的功能合作伙伴,尤其是对那种还没能很好的表征的蛋白质

数据库介绍

string数据库通过文献内容管理,来提取实验数据得出的蛋白质-蛋白质相互作用关系。此外,string数据库还存储得有一些计算预测的相互作用关系:

1.科学文章的文本挖掘
2.从基因组的特征计算得来的相互作用关系

3.基于直系同源的物种模型转移来的相互作用关系
所有预测的活着导入的功能性关系对,都是以及各通用的参考数据库为基准来进行注释

导入的数据
string数据库的蛋白质关联信息,有一些是从物理相互作用数据库,以及生物通路的信息数据库导入的

准确的数据:
KEGG          EcoCyc         BIioCyc          GO         reactome          Biocarta        NCI-Nature Pathway Interaction Database

实验数据:
MINT    HPRD   BIND   DIP  PID  BioGRID 


文本挖掘

string数据库的有些信息是通过文本挖掘的方式收集的。通过对庞大的科学文章的解析,来搜寻到统计相关的共现基因的名字
SGD:Saccharomyces

OMIM:Online Mendelian Inheritance  in Man
FlyBase:A Database of Drophila Genes &Genomes

PubMed:A search engine accessing primarily the MEDLINE database of references and abstracts on life sciences and biomedical topics

预测的数据
string数据库中,还有一些数据是通过预测得来的

Neighborhood:不同物种之间,相似的基因组信息预示着相似的蛋白质功能
Gene Fusion:某些基因组中的蛋白质的融合,有很大可能性是具有功能性相关的

Co-occurrence:如果蛋白质有相似的功能,或者出现在同一个代谢通路中,那他们应该是会具有相似的表达模式的,以及相似的系统发生谱
Co-expression:基于观察到的具有相同表达模式的基因,来预测基因之间的相关性

  基因组信息


算法介绍

很大一部分的string的数据是从之前介绍的各种数据库中导入的。同时,他也包含了大量的预测的关联性

string数据库会定期导入完整测序的基因组序列(多细胞基因组:Ensembl,其他:SwissProt/UnitProt),并从中搜索这三种基因组信息。目的就是为了识别在进化过程中,也许具有一定功能相关联的基因对。

string数据库中,使用Confidence Score可靠指数来对应每一个预测的相互关联性

算法优势
将多种类型的证据数据映射到单一的、稳定的蛋白质组中,从而更有利于数据的比较
将已知预测的相互作用关系进行了部分互补,从而扩大覆盖的范围

综合打分的方案比独立的证据认可,具有更高的可靠性

并映射和传输相互作用关系到大量的生物体中,有利于进化的研究

算法总结

算法



  • 7
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
当在MySQL中插入数据时出现"not all arguments converted during string formatting"错误时,通常是由于插入语句中的占位符与提供的参数数量不匹配导致的。这个错误通常发生在使用字符串格式化操作符(%)时。 解决这个问题的方法有两种: 1. 使用参数化查询:使用参数化查询可以避免使用字符串格式化操作符,从而避免这个错误。参数化查询使用占位符(通常是问号?)来表示要插入的值,然后将值作为参数传递给查询。这样可以确保参数的数量与占位符的数量匹配。 示例代码如下: ```python import mysql.connector # 连接到数据库 conn = mysql.connector.connect(host='localhost', user='username', password='password', database='database_name') # 创建游标对象 cursor = conn.cursor() # 定义插入语句和参数 sql = "INSERT INTO table_name (column1, column2) VALUES (%s, %s)" values = ('value1', 'value2') # 执行插入操作 cursor.execute(sql, values) # 提交事务 conn.commit() # 关闭游标和连接 cursor.close() conn.close() ``` 2. 检查占位符和参数的匹配:如果你仍然想使用字符串格式化操作符,确保占位符的数量与提供的参数数量匹配。如果占位符的数量多于参数的数量,将会出现"not all arguments converted during string formatting"错误。 示例代码如下: ```python import mysql.connector # 连接到数据库 conn = mysql.connector.connect(host='localhost', user='username', password='password', database='database_name') # 创建游标对象 cursor = conn.cursor() # 定义插入语句和参数 sql = "INSERT INTO table_name (column1, column2) VALUES ('%s', '%s')" values = ('value1', 'value2') # 执行插入操作 cursor.execute(sql % values) # 提交事务 conn.commit() # 关闭游标和连接 cursor.close() conn.close() ``` 请注意,第二种方法存在SQL注入的风险,因此建议使用第一种方法的参数化查询。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值