计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库

原标题:【生信学习笔记】KEGG分子通路数据库

首先什么是一个通路?

589da8cac321851ebdee3311091f8d0f.png

通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行为最终生成某一个成品,或者对细胞有某种改变。 其实有点像人类的工厂,这个工厂里有一些人有非常固定的工作,比如把左边的人传给它的半成品加一个零件, 然后传给他右边的人,右边的人再加一个零件。还有一些人就像product manager一样, 如果你这边的速度慢了,就让你加快一点,速度快了,那就让你减慢一点, 这工厂还有两类很重要的人,一类是sales & marketing,他做的工作是到外边的市场去看,看市场上对那种产品需求更高,再把这个信息传达回来。

这时候,supply manager就会多进一些原材料,product manager就会让特定的市场需求的产品加快一些生产速度 想象一下,其实在细胞里, 通路就有非常类似的工作模式 主要就有三大类通路,一个就是metabolic pathways,这像有原材料,一步一步加工编程一个产品。 还有就是Gene regulation pathways,就像product manager一样,根据外界的情况来调节哪些基因多表达一些或者少表达一些 再有就是信号转导通路,这就包括像sales manager一样把市场的信息反馈到生产里, 把这个信息一步一步地从product manager 传到 supply manager,再传到工人中。

ae08d10a6fe94bc743321da3fbdcb5b3.png

这里显示的就是KEGG 数据库里的 Cell cycle pathway。

a8f25cf7a073367a88b8f809fc87d6f1.png

Pathway Database现在也有很多, 这里列出来的就是大家用的比较多的包括KEGG, BioCarta, BioCyc,Panther,PID和Reactome 。

f55dd911b05846b66a78d226f1c8b029.png

5276cfd50c7dc3d1b9c1888d50e6d011.png

KEGG pathway也是一个hierarchical 的结构化的格式, 包括几大类,首先是代谢,后面还有Genetic Information Processing , Environmental Information Processing , Cellular Process , Human Diseases等等。它最早主要是做代谢的通路,所以是KEGG里面最为完善的一类。

78113a20c3eb7b54e4ff3dbbdda28467.png

如果看代谢的通路,又会细分为几大类,比如说Carbohydrate,碳水化合物的代谢, 碳水化合物代谢下面又分很多种更细的类别,比如说starch and sucrose metabolism。

96ced697a26edff29c41954748d32780.png

展开这个就会显示starch and sucrose metabolism相关的基因和他们之间的这些调控的关系 首先会看到长方形显示的就是基因的产物,主要包括蛋白,还有一些RNA,圆圈显示的就是原材料或者中间产物。 每一个pathway都不是独立存在的,会链接到别的pathway,在这里也有显示。

11964b46017bbdb661693cbdb97af609.png

这里比较重要的就是里面的interactions,也是这里面的关系,这些关系又分几类,一类是蛋白蛋白之间的相互作用 对于phosphorylation和dephosphorylation有明确的定义,对于泛素化同样有明确的定义,activation和inhibition在数据库里是有不一样的表示 indirect effect 和state change, binding/association,dissociation都是有非常明确的定义,最后protein complex用网格来定义。

3a27fd42414545fca98799a182cca368.png

基因表达之间的关系包括通过一个中间产物的表达的调控,包括表达和抑制,包括还有直接的表达调控还有间接的表达调控。

b88396216551ff0179d06406d756871e.png

酶和酶之间作用就会通过连续的反应的两个步骤来定义。

30c4ba14508da0330b0561107d74b36f.png

KEGG pathway也是一个结构的文件,每一个entry它的名字,deion它所涉及到的module和molecular都有明确的定义。

9ba390ad41f7a6840d68a06223c7c446.png

它的格式是KGML的格式 它每个PATHWAY有它的名字,是哪一个物种,它所涉及到的反应和不同蛋白之间的关系 另外还有一级叫graphics,就是图形文件,就像我们刚刚看到的图形文件,它在电脑里是如何存储的呢 它通过把图形文件里面每个分子的X,Y的坐标 它是哪一种类型,图标的长宽和颜色,在电脑里都可以方便地定义。

0fc27c488db86682669188992307321e.png

KGML文件和XML文件是非常相似的,每个PATHWAY是这样的一个格式

0b13078d7d43312a9de8c6e9fc08c87b.png

19f4b80a004d18f984891baf7ecaf4d9.png

KEGG PATHWAY和Gene ontology一样,如果你要浏览的话有非常清楚的这样一个结构,并且可以搜索,在搜索的同时 还可以指定要把哪几个基因标成特定的颜色,可以想象如果没有底层的数据库这样的操作是不可能的。

ffdfced2d887af664ea06cca232ede69.png

37d9d893423ef447de1190acd0b70fc2.png

KEGG数据库里有一个很重要的概念是很多没有特别关注,但其实对于计算是非常重要的 就是KO。

781ed4f38805e481d299ceaf028fd45f.png

KEGG ontology看起来就和KEGG PATHWAY有点像,但其实主要是来描述 相关的基因的类似ontology的结构,它和Gene Ontology一样是一个四级的结构 和Gene Ontology不一样的是,它是四级的平的一个结构,首先最上层包括代谢,细胞过程等等几个类别。

e3a2e7e05e7d98db2f4a2d0d35f2e295.png

aaf02dc115938948e4a7aa2ebbd1e665.png

代谢里又细分像碳水化合物代谢等等,还可以再细分。

c07d63a9f956001f72ec9fd662d71542.png

近期动态:

2019年“生物信息分析”暑期班报名通知

“优生遗传咨询师”培训通知(四川彭州站)

生物信息学学计算预测程序

有多种计算机软件工具可以对变异在核苷酸及氨基酸水平上的影响进行判断。这些工具主要分为两种:一种可以预测错义变异是否会破坏其产生的蛋白质的结构或功能;另一种可以预测是否影响剪接(请参考ACMG-NGS-指南,表2)。判断错义变异的预测工具对于预测已知致病的错义变异的准确率能达到65%~80%。临床实验室常用的错义变异解读工具有PolyPhen2、SIFT和MutationTaster.目前的剪接位点预测工具在预测剪接位点异常的敏感性可达90%~100%,但预测的特异性只有60%~80%。虽然许多程序使用不同的算法进行预测,但他们的基本原理相似;因此,在序列解读中,组合不同软件工具的预测结果被视为单一证据而不是相互独立的证据。不过,仍然建议使用多种软件进行序列变异解读,因为每个软件拥有自己独特的优点及缺点。

——《遗传病分子基础与基因诊断》

责任编辑:

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值