文献分享: 基因组规模代谢的概念和构建

原文章

1. 系统生物学

1️⃣生物信息学:生物组学信息爆炸式增长,由此需要快速处理和挖掘,由此和计算机结合产生生物信息学

2️⃣系统生物学:基于高通量生物组学信息,借助计算机技术和数学工具

3️⃣基因组规模代谢网络模型:以菌株为例

  1. 指该菌株内部所有代谢反应共同形成的系统模型
  2. 包括代谢物+催化反应的酶+基因

2. 基因组规模代谢网络

2.1. 模型概念

1️⃣核心:通过矩阵来反映GPR(基因-蛋白-反应)关系

2️⃣建模实例:注意, → A \to{A} A的符号表示了底物的摄取

image-20240119150529720
  1. 基因-酶矩阵 G G G:如图中的 G 4 ∗ 5 G_{4*5} G45,例如 E 2 E_2 E2行对应 G 2 = G 3 = 1 G_2=G_3=1 G2=G3=1表示酶2的合成需要2和3基因
  2. 酶-反应矩阵 E E E:如图中的 G 5 ∗ 4 G_{5*4} G54​,例如 R 2 R_2 R2行对应 E 1 = 1 E_1=1 E1=1表示反应2需要酶1的催化
  3. 基因-反应矩阵 E ∗ G E*G EG:就是把酶-反应矩阵*基因-酶矩阵,可以理解为基因催化了某个反应
  4. 化学计量矩阵 S S S
    • 一行一个代谢物,一列一个反应,交叉的数代表反应的计量系数
    • 计量数中,负数代表是反应物,正数代表是生成物,0代表不参加反应

3️⃣针对化学计量矩阵的限制向量 v v v

image-20240119153202708

2.2. 模型构建

就是将细胞内全基因组规模下所有基因-蛋白-反应的关系转为数学模型

2.2.1. GSMM构建的数据库和工具

1️⃣GSMM(akaGEM)构建有关数据库

资源库描述
MetaCyc/BioCyc代谢路径/代谢途径数据库
NCBI基因组数据库
KEGG代谢途径数据库
Uniport蛋白质数据库
BRENDA酶活力学信息数据库
ENZYME酶数据库
REACTOME代谢途径数据库
MetRxn代谢物和反应的标准化平台
BiGGGEM数据库
BioModels生物模型数据库
antiSMASH 3.0次级代谢物生物信息门户

2️⃣GSMM构建有关自动化工具

自动构建自动建模构建描述
RAVEN自动构建自动 GEM 构建工具集
Model SEED自动构建自动 GEM 构图构建平台
MetaNetX.org基于基因组/重组自动化 GEM 自动构建和分析平台
CoReCo基于基因局序列和多种物种的基础数据生成 GEM 构建
merlin基于基因组信息 GEM 自动构建平台

2.2.2. 草图的构建

1️⃣自上而下:自全基因组出发→注释基因→找出基因表达的酶及其酶促反应,这一过程忽略了RNA的剪切,由此常用于原核生物

2️⃣自下而上:直接从数据库中找出目标菌株的蛋白

2.2.3. 草图的修剪

1️⃣填补代谢途径的空隙:使得中间产物产销平衡,有时甚至需要添加一些未证实的反应

2️⃣移除影响较小的代谢途径

3️⃣添加拟反应和拟代谢物

  1. 拟反应(Pseudo Reactions):模拟不易量化和不明确的反应,不对应特定酶促反应,而是填补代谢途径
  2. 以下反应用拟反应构建
    • 生物量合成反应:模拟细胞生长和生物质积累的过程
    • 细胞维持能量消耗反应:模拟细胞为维持基本生命活动所消耗的能量,如ATP代谢

2.3. GSMM构建现状

2.3.1. 模型构建

1️⃣原核生物最完善的GSMM:大肠杆菌GSMM

2️⃣真核生物最完善的GSMM:酿酒酵母GSMM

2.3.2. 模型分析工具

ToolURL
COBRA toolboxopencobra.github.io/cobratoolbox
RAVEN toolboxgithub.com/SysBioChalmers/RAVEN
CellNetAnalyzermpi-magdeburg.mpg.de/projects/cna/cna.html
FBA-SimVisimmersive-analytics.infotech.monash.edu/fbasimvis
OptFluxwwwoptflux.org
COBRAjlopencobra.github.io/COBRA.jl
Sybilrdrr.io/cran/sybil
COBRApyopencobra.github.io/cobrapy
CBMPycbmpy.sourceforge.net
SurreyFBAsysbio.sbs.surrey.ac.uk/sfba
FASIMUbioinformatics.org/fasimu
FAMEf-a-m-e.org
Pathway Toolsbioinformatics.ai.sri.com/ptools
KBasekbase.us

其实论文中有一处错误,COBRA工具箱不是Matlab写的,源代码是Go语言

2.4. GSMM仿真和算法

2.4.1. GSMM仿真过程

1️⃣对代谢网路的描述:化学计量矩阵 S m ∗ n S_{m*n} Smn,有 m m m个代谢物和 n n n个反应

image-20240119200510252

2️⃣对细胞生理状态的描述:速率向量 V V V

  1. n ∗ 1 n*1 n1的列向量,包含了所有 j j j个反应的速率, V j V_{j} Vj表示第 j j j个反应的速率
  2. d x i d t = S i j ⋅ v j \cfrac{dx_i}{dt}=S_{ij}\cdot{}v_{j} dtdxi=Sijvj表示,第 i i i个物质的消耗速率,等于第 i i i个物质第 j j j个反应*第 j j j个反应的速率

3️⃣明确反应中的约束

  1. 反应的方向是否可逆
  2. 上下限约束
    • 上限约束 U B j UB_{j} UBj:最大反应速率
    • 下限约束 L B j LB_{j} LBj:最大逆反应速率,对于不可逆反应这个值=0,对于可逆反应这个值通常是上限的负值
    • 通常这两个约束都强行设定为1000mmol/g DCW/h(每克干细胞重量每小时转换或产生的毫摩尔数)
  3. 关于交换反应的限制
    • 交换反应是什么:描述代谢物进入或者离开细胞外周微环境的扩散作用
    • 特性:不需要酶参与,反应速率直接取决于代谢物的有无,所以干脆可以强行设定上下限

2.4.1.* 流量平衡分析(FBA):GSMM代谢流量仿真

1️⃣拟稳态的线性微分约束

  1. 初代GSMM中有且仅有一个约束,就是要求细胞处于拟稳态
  2. 拟稳态:胞内代谢物浓度保持不变,每种代谢物的生成速率与消耗速率平衡
  3. 数学描述:假设细胞处于拟稳态,即 d x i d t = S i j ⋅ v j = 0 \cfrac{dx_i}{dt}=S_{ij}\cdot{}v_{j}=0 dtdxi=Sijvj=0其中 i ∈ m   , j ∈ n i\in{}m\,,j\in{}n im,jn

[ d x 1 d t = S 11 ⋅ v 1 d x 1 d t = S 12 ⋅ v 2 ⋯ d x 1 d t = S 1 n ⋅ v n d x 2 d t = S 21 ⋅ v 1 d x 2 d t = S 22 ⋅ v 2 ⋯ d x 2 d t = S 2 n ⋅ v n ⋮ ⋮ ⋱ ⋮ d x m d t = S m 1 ⋅ v 1 d x m d t = S m 2 ⋅ v 2 ⋯ d x m d t = S m n ⋅ v n ] = 0 \begin{bmatrix} \cfrac{dx_1}{dt}=S_{11}\cdot{}v_{1} & \cfrac{dx_1}{dt}=S_{12}\cdot{}v_{2} & \cdots & \cfrac{dx_1}{dt}=S_{1n}\cdot{}v_{n} \\ \cfrac{dx_2}{dt}=S_{21}\cdot{}v_{1} & \cfrac{dx_2}{dt}=S_{22}\cdot{}v_{2} & \cdots & \cfrac{dx_2}{dt}=S_{2n}\cdot{}v_{n}\\ \vdots & \vdots & \ddots & \vdots \\ \cfrac{dx_m}{dt}=S_{m1}\cdot{}v_{1} & \cfrac{dx_m}{dt}=S_{m2}\cdot{}v_{2} & \cdots & \cfrac{dx_m}{dt}=S_{mn}\cdot{}v_{n} \end{bmatrix}=0 dtdx1=S11v1dtdx2=S21v1dtdxm=Sm1v1dtdx1=S12v2dtdx2=S22v2dtdxm=Sm2v2dtdx1=S1nvndtdx2=S2nvndtdxm=Smnvn =0

采纳更宽松的表达:KaTeX parse error: Expected group after '_' at position 35: …in{bmatrix}\sum_̲\limits{j=1}^{n…,也就是物质在所有反应中产销平衡

2️⃣约束条件的解空间

  1. 在以上多元线性微分方程的限制下,解空间是严格限制的
  2. 解空间中每一点都代表一个解,可以表示为 V = [ v 1 ′ v 2 ′ ⋮ v n ′ ] V=\begin{bmatrix}v_1'\\v_2'\\\vdots\\v_n'\end{bmatrix} V= v1v2vn
  3. 解的含义:其实就是一个速率向量,对应一个细胞的一个生理状态

3️⃣目标函数:目标反应物的反应速率,也就是要求拟稳态下目标反应物反应速率最大

4️⃣所以FBA到底是什么:

  1. 一言蔽之:从解空间中找一个解,使得目标函数的反应流量最大/最小(最优解)
  2. 最优解又称最优代谢流量分布
  3. 可视化
    image-20240119232159116

5️⃣一个典型的FBA:最大化细胞的比生长速率

  1. 目标函数 Max:  Z o b j = V b i o m a s s \text{Max: } Z_{obj}=V_{biomass} Max: Zobj=Vbiomass即细胞生物量的产生速率达到最大
  2. 约束条件 subject to:  { [ ∑ j = 1 n S 1 j ⋅ v j ∑ j = 1 n S 2 j ⋅ v j ⋮ ∑ j = 1 n S m j ⋅ v j ] = 0 [ L B 1 L B 2 ⋮ L B n ] ≤ [ v 1 v 2 ⋮ v n ] ≤ [ U B 1 U B 2 ⋮ U B n ] \text{subject to: }\begin{cases}\begin{bmatrix}\displaystyle\sum{j=1}^{n}S_{1j}\cdot{}v_{j}\\\displaystyle\sum{j=1}^{n}S_{2j}\cdot{}v_{j} \\\vdots \\\displaystyle\sum{j=1}^{n}S_{mj}\cdot{}v_{j}\end{bmatrix}=0\\\\\begin{bmatrix}LB_{1}\\LB_{2}\\\vdots\\LB_{n}\end{bmatrix}\leq{}\begin{bmatrix}v_1\\v_2\\\vdots\\v_n\end{bmatrix}\leq{}\begin{bmatrix}UB_{1}\\UB_{2}\\\vdots\\UB_{n}\end{bmatrix}\end{cases} subject to:  j=1nS1jvjj=1nS2jvjj=1nSmjvj =0 LB1LB2LBn v1v2vn UB1UB2UBn

2.4.1.** FBA变种

1️⃣流量变化分析(FVA):

  1. 表现:当FBA的目标反应最优时,其他所有反应速率的区间变化,反应了代谢路径的稳定性
  2. 目标函数 Max/Min:  V j \text{Max/Min: } V_{j } Max/Min: Vj
  3. 约束条件 subject to:  { Z o b j = V b i o m a s s [ ∑ j = 1 n S 1 j ⋅ v j ∑ j = 1 n S 2 j ⋅ v j ⋮ ∑ j = 1 n S m j ⋅ v j ] = 0 [ L B 1 L B 2 ⋮ L B n ] ≤ [ v 1 v 2 ⋮ v n ] ≤ [ U B 1 U B 2 ⋮ U B n ] \text{subject to: }\begin{cases}Z_{obj}=V_{biomass}\\\\\begin{bmatrix}\displaystyle\sum{j=1}^{n}S_{1j}\cdot{}v_{j}\\\displaystyle\sum{j=1}^{n}S_{2j}\cdot{}v_{j} \\\vdots \\\displaystyle\sum{j=1}^{n}S_{mj}\cdot{}v_{j}\end{bmatrix}=0\\\\\begin{bmatrix}LB_{1}\\LB_{2}\\\vdots\\LB_{n}\end{bmatrix}\leq{}\begin{bmatrix}v_1\\v_2\\\vdots\\v_n\end{bmatrix}\leq{}\begin{bmatrix}UB_{1}\\UB_{2}\\\vdots\\UB_{n}\end{bmatrix}\end{cases} subject to:  Zobj=Vbiomass j=1nS1jvjj=1nS2jvjj=1nSmjvj =0 LB1LB2LBn v1v2vn UB1UB2UBn

2️⃣吝啬流量分析(pFBA)

  1. 限制:在拟稳态基础上,加一个细胞内催化反应酶的用量最省,由此得到的代谢流量分布通常比FBA更准确
  2. 表现:目标函数最优,其余反应速率不再有变化区间,而是截取所有反应速率最小和
  3. 目标函数 Max:  ∑ j = 1 n v j \text{Max: } \sum\limits_{j=1}^{n}v_{j } Max: j=1nvj
  4. 约束条件 subject to:  { Z o b j = V b i o m a s s [ ∑ j = 1 n S 1 j ⋅ v j ∑ j = 1 n S 2 j ⋅ v j ⋮ ∑ j = 1 n S m j ⋅ v j ] = 0 [ L B 1 L B 2 ⋮ L B n ] ≤ [ v 1 v 2 ⋮ v n ] ≤ [ U B 1 U B 2 ⋮ U B n ] \text{subject to: }\begin{cases}Z_{obj}=V_{biomass}\\\\\begin{bmatrix}\displaystyle\sum{j=1}^{n}S_{1j}\cdot{}v_{j}\\\displaystyle\sum{j=1}^{n}S_{2j}\cdot{}v_{j} \\\vdots \\\displaystyle\sum{j=1}^{n}S_{mj}\cdot{}v_{j}\end{bmatrix}=0\\\\\begin{bmatrix}LB_{1}\\LB_{2}\\\vdots\\LB_{n}\end{bmatrix}\leq{}\begin{bmatrix}v_1\\v_2\\\vdots\\v_n\end{bmatrix}\leq{}\begin{bmatrix}UB_{1}\\UB_{2}\\\vdots\\UB_{n}\end{bmatrix}\end{cases} subject to:  Zobj=Vbiomass j=1nS1jvjj=1nS2jvjj=1nSmjvj =0 LB1LB2LBn v1v2vn UB1UB2UBn

2.4.1.*** ACHR算法(Artificial Centering Hit-and-Run)

1️⃣限制:假设处于拟稳态,同样得到约束条件 subject to:  { [ ∑ j = 1 n S 1 j ⋅ v j ∑ j = 1 n S 2 j ⋅ v j ⋮ ∑ j = 1 n S m j ⋅ v j ] = 0 [ L B 1 L B 2 ⋮ L B n ] ≤ [ v 1 v 2 ⋮ v n ] ≤ [ U B 1 U B 2 ⋮ U B n ] \text{subject to: }\begin{cases}\begin{bmatrix}\displaystyle\sum{j=1}^{n}S_{1j}\cdot{}v_{j}\\\displaystyle\sum{j=1}^{n}S_{2j}\cdot{}v_{j} \\\vdots \\\displaystyle\sum{j=1}^{n}S_{mj}\cdot{}v_{j}\end{bmatrix}=0\\\\\begin{bmatrix}LB_{1}\\LB_{2}\\\vdots\\LB_{n}\end{bmatrix}\leq{}\begin{bmatrix}v_1\\v_2\\\vdots\\v_n\end{bmatrix}\leq{}\begin{bmatrix}UB_{1}\\UB_{2}\\\vdots\\UB_{n}\end{bmatrix}\end{cases} subject to:  j=1nS1jvjj=1nS2jvjj=1nSmjvj =0 LB1LB2LBn v1v2vn UB1UB2UBn

2️⃣取样:

  1. 不设定目标函数,而是设定从上述约束条件解空间中取样的点数
  2. 每个点代表细胞的一个生理状态
  3. 取样点数到一定多(2000个),点就会收敛到解空间,从而得到解空间的大致轮廓

3️⃣取样后的统计

image-20240120120118646
  1. 法1:找出每个代谢反应出现频数最多的反应速率,组成一个速率向量
  2. 法2:计算每个反应的平均反应速率,组成一个速率向量

2.4.2. GSMM仿真算法

2.4.2.1. 双边优化:满足外部目标产物最大&内部细胞生长最大

1️⃣外层优化目标:最大化目标产品的生产

2️⃣内层优化目标:最大化细胞生长

3️⃣同时满足限制:

  1. 强行设定底物摄取速率
  2. 拟稳态
  3. 实验的特定限制条件
  4. 外层优化敲除反应(敲除反应数量不超过预设)
2.4.2.2. 典型仿真算法

1️⃣OptKnock

  1. 基本思想:基于双边优化,通过对GSMM突变(基因敲除)最大化目标产物的生产,同时必须满足一定的细胞生长
  2. 小缺陷:算法是通过尝试所有突变策略来挑选最优敲除反应靶点,当要敲除的靶点大于3个时,计算量就是灾难性的

2️⃣IdealKnock:在算法层面优化了OptKnock的时间复杂度,使得敲除10个以内靶点都可接受

3️⃣OptReg:

  1. 和OptKnock识别敲除靶点一样的原理,识别过表达靶点和限制表达的靶点
  2. 反应靶点从0和1的二元关开状态,变成了0到1的连续状态
  3. 算法时间复杂度较OptKnock增加
  4. 识别过/限表达的算法还有:FSEOF/FVSEOF,OptForce,k-OptForce,APGC

4️⃣OptSwap

  1. 辅因子:协助酶进行催化反应的非蛋白质组分
  2. 催化相同反应的不同酶
    • 酶的辅因子不同,导致酶不同,但是却能够催化同一化学反应
    • 典型例子如酶+NADH,酶+NADPH
  3. OptSwap算法:基于双边优化,特异性识别辅因子特异性反应靶点,而这些靶点即使改变也不会影响细胞生长并且能提高目标产量

5️⃣OptStrain和SimOptStrain

  1. OptStrain:实现GSMM添加外源基因从而提高产量
  2. SimOptStrain:同时仿真了外源基因的添加和基因的敲除

6️⃣ReacKnock:将OptKnock的线性规划换成混合整数线性规划,能更快识别敲除靶点和列举同等最优解

2.4.2.3. 其他仿真算法

1️⃣基于最小代谢调整量(MOMA)的算法

  1. MOMA:也就是改造后的GSMM和改造前的尽量要相似
  2. 例如BiMOMA,MOMAKnock

2️⃣基于优化算法的仿真算法

  1. 基于遗传算法的OptGene:能不增加时间复杂度情况下识别更多敲除靶点
  2. 基于进化算法的CiED:
  3. 基于蜂群算法的BAFBA,DBFBA

3️⃣考虑其他生物学过程和因素的算法

  1. OptORF:在原有基础上增加转录限制
  2. EMILiO/CosMos:胁迫各自反应的通量增加来模拟基因上调的效果
  3. Redirector:引入负值权重(什么的权,原文又没说清楚)
2.4.2.3. 反应靶点-基因靶点的关联矛盾

1️⃣矛盾点

  1. GSMM仿真实现的都是反应靶点的识别,而代谢/基因工程改造的是基因靶点
  2. 反应靶点可对应多个基因靶点的调控,而一个基因靶点可以调控多个反应靶点

2️⃣两种解决方案:一言以蔽之,对传统GSMM进行逻辑转换

  1. LTM:从基因水平上对模型进行转换,加入不存在的物质(拟代谢物),使得所有反应至多被一个基因催化
  2. gModel:从酶水平上对模型进行转换,所有反应都只和一个酶有关

3. GSMM仿真的应用

1️⃣最主要的两个应用

  1. 基于GSMM仿真,理解工程菌株中基因扰动或环境扰动对菌株表型的影响
  2. 基于GSMM仿真预测,设计出目标菌株

2️⃣应用步骤

  1. 准备好和菌株匹配的GSMM
  2. 在特定条件下,仿真GSMM的代谢流量分布
  3. 分析代谢流量分布
  • 9
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值