文献分享: 基因组规模代谢的概念和构建

Dann Hiroaki

已于 2024-11-18 23:43:52 修改

阅读量944

点赞数 11

文章标签：论文阅读

于 2024-08-12 23:52:08 首次发布

本文链接：https://blog.csdn.net/qq_64091900/article/details/141144988

版权

原文章

1. 系统生物学

1️⃣生物信息学：生物组学信息爆炸式增长，由此需要快速处理和挖掘，由此和计算机结合产生生物信息学

2️⃣系统生物学：基于高通量生物组学信息，借助计算机技术和数学工具

3️⃣基因组规模代谢网络模型：以菌株为例

指该菌株内部所有代谢反应共同形成的系统模型
包括代谢物+催化反应的酶+基因

2. 基因组规模代谢网络

2.1. 模型概念

1️⃣核心：通过矩阵来反映GPR(基因-蛋白-反应)关系

2️⃣建模实例：注意， $\to{A}$ 的符号表示了底物的摄取

基因-酶矩阵 $G$ ：如图中的 $G_{4*5}$ ，例如 $E_2$ 行对应 $G_2=G_3=1$ 表示酶2的合成需要2和3基因
酶-反应矩阵 $E$ ：如图中的 $G_{5*4}$ ，例如 $R_2$ 行对应 $E_1=1$ 表示反应2需要酶1的催化
基因-反应矩阵 $E * G$ ：就是把酶-反应矩阵*基因-酶矩阵，可以理解为基因催化了某个反应
化学计量矩阵 $S$
一行一个代谢物，一列一个反应，交叉的数代表反应的计量系数
计量数中，负数代表是反应物，正数代表是生成物，0代表不参加反应

3️⃣针对化学计量矩阵的限制向量 $v$

2.2. 模型构建

就是将细胞内全基因组规模下所有基因-蛋白-反应的关系转为数学模型

2.2.1. GSMM构建的数据库和工具

1️⃣GSMM(akaGEM)构建有关数据库

资源库描述
MetaCyc/BioCyc 代谢路径/代谢途径数据库
NCBI 基因组数据库
KEGG 代谢途径数据库
Uniport 蛋白质数据库
BRENDA 酶活力学信息数据库
ENZYME 酶数据库
REACTOME 代谢途径数据库
MetRxn 代谢物和反应的标准化平台
BiGG GEM数据库
BioModels 生物模型数据库
antiSMASH 3.0 次级代谢物生物信息门户

2️⃣GSMM构建有关自动化工具

自动构建自动建模构建描述
RAVEN 自动构建自动 GEM 构建工具集
Model SEED 自动构建自动 GEM 构图构建平台
MetaNetX.org 基于基因组/重组自动化 GEM 自动构建和分析平台
CoReCo 基于基因局序列和多种物种的基础数据生成 GEM 构建
merlin 基于基因组信息 GEM 自动构建平台

2.2.2. 草图的构建

1️⃣自上而下：自全基因组出发→注释基因→找出基因表达的酶及其酶促反应，这一过程忽略了RNA的剪切，由此常用于原核生物

2️⃣自下而上：直接从数据库中找出目标菌株的蛋白

2.2.3. 草图的修剪

1️⃣填补代谢途径的空隙：使得中间产物产销平衡，有时甚至需要添加一些未证实的反应

2️⃣移除影响较小的代谢途径

3️⃣添加拟反应和拟代谢物

拟反应(Pseudo Reactions)：模拟不易量化和不明确的反应，不对应特定酶促反应，而是填补代谢途径
以下反应用拟反应构建
生物量合成反应：模拟细胞生长和生物质积累的过程
细胞维持能量消耗反应：模拟细胞为维持基本生命活动所消耗的能量，如ATP代谢

2.3. GSMM构建现状

2.3.1. 模型构建

1️⃣原核生物最完善的GSMM：大肠杆菌GSMM

2️⃣真核生物最完善的GSMM：酿酒酵母GSMM

2.3.2. 模型分析工具

Tool URL
COBRA toolbox opencobra.github.io/cobratoolbox
RAVEN toolbox github.com/SysBioChalmers/RAVEN
CellNetAnalyzer mpi-magdeburg.mpg.de/projects/cna/cna.html
FBA-SimVis immersive-analytics.infotech.monash.edu/fbasimvis
OptFlux wwwoptflux.org
COBRAjl opencobra.github.io/COBRA.jl
Sybil rdrr.io/cran/sybil
COBRApy opencobra.github.io/cobrapy
CBMPy cbmpy.sourceforge.net
SurreyFBA sysbio.sbs.surrey.ac.uk/sfba
FASIMU bioinformatics.org/fasimu
FAME f-a-m-e.org
Pathway Tools bioinformatics.ai.sri.com/ptools
KBase kbase.us

其实论文中有一处错误，COBRA工具箱不是Matlab写的，源代码是Go语言

2.4. GSMM仿真和算法

2.4.1. GSMM仿真过程

1️⃣对代谢网路的描述：化学计量矩阵 $S_{m*n}$ ，有 $m$ 个代谢物和 $n$ 个反应

2️⃣对细胞生理状态的描述：速率向量 $V$

是 $n * 1$ 的列向量，包含了所有 $j$ 个反应的速率， $V_{j}$ 表示第 $j$ 个反应的速率
$\cfrac{dx_i}{dt}=S_{ij}\cdot{}v_{j}$ 表示，第 $i$ 个物质的消耗速率，等于第 $i$ 个物质第 $j$ 个反应*第 $j$ 个反应的速率

3️⃣明确反应中的约束

反应的方向是否可逆
上下限约束
上限约束 $UB_{j}$ ：最大反应速率
下限约束 $LB_{j}$ ：最大逆反应速率，对于不可逆反应这个值=0，对于可逆反应这个值通常是上限的负值
通常这两个约束都强行设定为1000mmol/g DCW/h(每克干细胞重量每小时转换或产生的毫摩尔数)

关于交换反应的限制
交换反应是什么：描述代谢物进入或者离开细胞外周微环境的扩散作用
特性：不需要酶参与，反应速率直接取决于代谢物的有无，所以干脆可以强行设定上下限

2.4.1.* 流量平衡分析(FBA)：GSMM代谢流量仿真

1️⃣拟稳态的线性微分约束

初代GSMM中有且仅有一个约束，就是要求细胞处于拟稳态
拟稳态：胞内代谢物浓度保持不变，每种代谢物的生成速率与消耗速率平衡
数学描述：假设细胞处于拟稳态，即 $\cfrac{dx_i}{dt}=S_{ij}\cdot{}v_{j}=0$ 其中 $i\in{}m\,,j\in{}n$

$\begin{bmatrix} \cfrac{dx_1}{dt}=S_{11}\cdot{}v_{1} & \cfrac{dx_1}{dt}=S_{12}\cdot{}v_{2} & \cdots & \cfrac{dx_1}{dt}=S_{1n}\cdot{}v_{n} \\ \cfrac{dx_2}{dt}=S_{21}\cdot{}v_{1} & \cfrac{dx_2}{dt}=S_{22}\cdot{}v_{2} & \cdots & \cfrac{dx_2}{dt}=S_{2n}\cdot{}v_{n}\\ \vdots & \vdots & \ddots & \vdots \\ \cfrac{dx_m}{dt}=S_{m1}\cdot{}v_{1} & \cfrac{dx_m}{dt}=S_{m2}\cdot{}v_{2} & \cdots & \cfrac{dx_m}{dt}=S_{mn}\cdot{}v_{n} \end{bmatrix}=0$

采纳更宽松的表达： $KaTeX parse error: Expected group after '_' at position 35: …in{bmatrix}\sum_̲\limits{j=1}^{n…$ ，也就是物质在所有反应中产销平衡

2️⃣约束条件的解空间

在以上多元线性微分方程的限制下，解空间是严格限制的
解空间中每一点都代表一个解，可以表示为 $V=\begin{bmatrix}v_1'\\v_2'\\\vdots\\v_n'\end{bmatrix}$
解的含义：其实就是一个速率向量，对应一个细胞的一个生理状态

3️⃣目标函数：目标反应物的反应速率，也就是要求拟稳态下目标反应物反应速率最大

4️⃣所以FBA到底是什么：

一言蔽之：从解空间中找一个解，使得目标函数的反应流量最大/最小(最优解)
最优解又称最优代谢流量分布
可视化

5️⃣一个典型的FBA：最大化细胞的比生长速率

目标函数 $\text{Max: } Z_{obj}=V_{biomass}$ 即细胞生物量的产生速率达到最大
约束条件 $\text{subject to: }\begin{cases}\begin{bmatrix}\displaystyle\sum{j=1}^{n}S_{1j}\cdot{}v_{j}\\\displaystyle\sum{j=1}^{n}S_{2j}\cdot{}v_{j} \\\vdots \\\displaystyle\sum{j=1}^{n}S_{mj}\cdot{}v_{j}\end{bmatrix}=0\\\\\begin{bmatrix}LB_{1}\\LB_{2}\\\vdots\\LB_{n}\end{bmatrix}\leq{}\begin{bmatrix}v_1\\v_2\\\vdots\\v_n\end{bmatrix}\leq{}\begin{bmatrix}UB_{1}\\UB_{2}\\\vdots\\UB_{n}\end{bmatrix}\end{cases}$

2.4.1.** FBA变种

1️⃣流量变化分析(FVA)：

表现：当FBA的目标反应最优时，其他所有反应速率的区间变化，反应了代谢路径的稳定性
目标函数 $\text{Max/Min: } V_{j }$
约束条件 $\text{subject to: }\begin{cases}Z_{obj}=V_{biomass}\\\\\begin{bmatrix}\displaystyle\sum{j=1}^{n}S_{1j}\cdot{}v_{j}\\\displaystyle\sum{j=1}^{n}S_{2j}\cdot{}v_{j} \\\vdots \\\displaystyle\sum{j=1}^{n}S_{mj}\cdot{}v_{j}\end{bmatrix}=0\\\\\begin{bmatrix}LB_{1}\\LB_{2}\\\vdots\\LB_{n}\end{bmatrix}\leq{}\begin{bmatrix}v_1\\v_2\\\vdots\\v_n\end{bmatrix}\leq{}\begin{bmatrix}UB_{1}\\UB_{2}\\\vdots\\UB_{n}\end{bmatrix}\end{cases}$

2️⃣吝啬流量分析(pFBA)

限制：在拟稳态基础上，加一个细胞内催化反应酶的用量最省，由此得到的代谢流量分布通常比FBA更准确
表现：目标函数最优，其余反应速率不再有变化区间，而是截取所有反应速率最小和
目标函数 $\text{Max: } \sum\limits_{j=1}^{n}v_{j }$
约束条件 $\text{subject to: }\begin{cases}Z_{obj}=V_{biomass}\\\\\begin{bmatrix}\displaystyle\sum{j=1}^{n}S_{1j}\cdot{}v_{j}\\\displaystyle\sum{j=1}^{n}S_{2j}\cdot{}v_{j} \\\vdots \\\displaystyle\sum{j=1}^{n}S_{mj}\cdot{}v_{j}\end{bmatrix}=0\\\\\begin{bmatrix}LB_{1}\\LB_{2}\\\vdots\\LB_{n}\end{bmatrix}\leq{}\begin{bmatrix}v_1\\v_2\\\vdots\\v_n\end{bmatrix}\leq{}\begin{bmatrix}UB_{1}\\UB_{2}\\\vdots\\UB_{n}\end{bmatrix}\end{cases}$

2.4.1.*** ACHR算法(Artificial Centering Hit-and-Run)

1️⃣限制：假设处于拟稳态，同样得到约束条件 $\text{subject to: }\begin{cases}\begin{bmatrix}\displaystyle\sum{j=1}^{n}S_{1j}\cdot{}v_{j}\\\displaystyle\sum{j=1}^{n}S_{2j}\cdot{}v_{j} \\\vdots \\\displaystyle\sum{j=1}^{n}S_{mj}\cdot{}v_{j}\end{bmatrix}=0\\\\\begin{bmatrix}LB_{1}\\LB_{2}\\\vdots\\LB_{n}\end{bmatrix}\leq{}\begin{bmatrix}v_1\\v_2\\\vdots\\v_n\end{bmatrix}\leq{}\begin{bmatrix}UB_{1}\\UB_{2}\\\vdots\\UB_{n}\end{bmatrix}\end{cases}$

2️⃣取样：

不设定目标函数，而是设定从上述约束条件解空间中取样的点数
每个点代表细胞的一个生理状态
取样点数到一定多(2000个)，点就会收敛到解空间，从而得到解空间的大致轮廓

3️⃣取样后的统计

法1：找出每个代谢反应出现频数最多的反应速率，组成一个速率向量
法2：计算每个反应的平均反应速率，组成一个速率向量

2.4.2. GSMM仿真算法

2.4.2.1. 双边优化：满足外部目标产物最大&内部细胞生长最大

1️⃣外层优化目标：最大化目标产品的生产

2️⃣内层优化目标：最大化细胞生长

3️⃣同时满足限制：

强行设定底物摄取速率
拟稳态
实验的特定限制条件
外层优化敲除反应(敲除反应数量不超过预设)

2.4.2.2. 典型仿真算法

1️⃣OptKnock

基本思想：基于双边优化，通过对GSMM突变(基因敲除)最大化目标产物的生产，同时必须满足一定的细胞生长
小缺陷：算法是通过尝试所有突变策略来挑选最优敲除反应靶点，当要敲除的靶点大于3个时，计算量就是灾难性的

2️⃣IdealKnock：在算法层面优化了OptKnock的时间复杂度，使得敲除10个以内靶点都可接受

3️⃣OptReg：

和OptKnock识别敲除靶点一样的原理，识别过表达靶点和限制表达的靶点
反应靶点从0和1的二元关开状态，变成了0到1的连续状态
算法时间复杂度较OptKnock增加
识别过/限表达的算法还有：FSEOF/FVSEOF，OptForce，k-OptForce，APGC

4️⃣OptSwap

辅因子：协助酶进行催化反应的非蛋白质组分
催化相同反应的不同酶
酶的辅因子不同，导致酶不同，但是却能够催化同一化学反应
典型例子如酶+NADH，酶+NADPH

OptSwap算法：基于双边优化，特异性识别辅因子特异性反应靶点，而这些靶点即使改变也不会影响细胞生长并且能提高目标产量

5️⃣OptStrain和SimOptStrain

OptStrain：实现GSMM添加外源基因从而提高产量
SimOptStrain：同时仿真了外源基因的添加和基因的敲除

6️⃣ReacKnock：将OptKnock的线性规划换成混合整数线性规划，能更快识别敲除靶点和列举同等最优解

2.4.2.3. 其他仿真算法

1️⃣基于最小代谢调整量(MOMA)的算法

MOMA：也就是改造后的GSMM和改造前的尽量要相似
例如BiMOMA，MOMAKnock

2️⃣基于优化算法的仿真算法

基于遗传算法的OptGene：能不增加时间复杂度情况下识别更多敲除靶点
基于进化算法的CiED：
基于蜂群算法的BAFBA，DBFBA

3️⃣考虑其他生物学过程和因素的算法

OptORF：在原有基础上增加转录限制
EMILiO/CosMos：胁迫各自反应的通量增加来模拟基因上调的效果
Redirector：引入负值权重(什么的权，原文又没说清楚)

2.4.2.3. 反应靶点-基因靶点的关联矛盾

1️⃣矛盾点

GSMM仿真实现的都是反应靶点的识别，而代谢/基因工程改造的是基因靶点
反应靶点可对应多个基因靶点的调控，而一个基因靶点可以调控多个反应靶点

2️⃣两种解决方案：一言以蔽之，对传统GSMM进行逻辑转换

LTM：从基因水平上对模型进行转换，加入不存在的物质(拟代谢物)，使得所有反应至多被一个基因催化
gModel：从酶水平上对模型进行转换，所有反应都只和一个酶有关

资源库	描述
MetaCyc/BioCyc	代谢路径/代谢途径数据库
NCBI	基因组数据库
KEGG	代谢途径数据库
Uniport	蛋白质数据库
BRENDA	酶活力学信息数据库
ENZYME	酶数据库
REACTOME	代谢途径数据库
MetRxn	代谢物和反应的标准化平台
BiGG	GEM数据库
BioModels	生物模型数据库
antiSMASH 3.0	次级代谢物生物信息门户

自动构建自动建模构建	描述
RAVEN	自动构建自动 GEM 构建工具集
Model SEED	自动构建自动 GEM 构图构建平台
MetaNetX.org	基于基因组/重组自动化 GEM 自动构建和分析平台
CoReCo	基于基因局序列和多种物种的基础数据生成 GEM 构建
merlin	基于基因组信息 GEM 自动构建平台

Tool	URL
COBRA toolbox	opencobra.github.io/cobratoolbox
RAVEN toolbox	github.com/SysBioChalmers/RAVEN
CellNetAnalyzer	mpi-magdeburg.mpg.de/projects/cna/cna.html
FBA-SimVis	immersive-analytics.infotech.monash.edu/fbasimvis
OptFlux	wwwoptflux.org
COBRAjl	opencobra.github.io/COBRA.jl
Sybil	rdrr.io/cran/sybil
COBRApy	opencobra.github.io/cobrapy
CBMPy	cbmpy.sourceforge.net
SurreyFBA	sysbio.sbs.surrey.ac.uk/sfba
FASIMU	bioinformatics.org/fasimu
FAME	f-a-m-e.org
Pathway Tools	bioinformatics.ai.sri.com/ptools
KBase	kbase.us