跟着无神一起读PAPERS 之Day1 基于深度学习的K cat预测能够改善限制酶模型的重构

今天的paper选自nature,为深度学习与生物领域的交叉研究。那么跟着无神一起来看看具体内容吧。

  1. 背景

Kcat是酶通量数字,定义了一个反应的最大化学转化率,是理解新陈代谢、蛋白组分布和生长以及特定的组织生理状态的重要参数。

虽然有大量的Kcat值被收集到了数据库中,但是相比复杂的现存组织和代谢酶的状况,其数量仍然相对稀少,尤其是缺少高吞吐量(理解为高效率)的测量方法。

基因组范围的限制酶形成代谢模型(ecGEMs)指的是全细胞代谢被酶催化合成的能力限制,因而能够进行各种基本的生命活动,这限制的情况极大程度地依赖于这个Kcat值。

但是,即使是被研究得比较透彻的组织,也离每一个反应的Kcat值被测量完相差很远。如果保持这样这种研究限制酶的完整模型肯定是构建不出来了。因此,需要一种大规模的测量Kcat的方法。

所以,这篇文章的研究内容就是提出了一种把底物结构和蛋白序列当输出,预测Kcat值的深度学习模型:DLKcat。

2.研究方法

2.1数据获取和预处理

      1. 数据集从BRENDA和SABIO-RK数据库获取
      2. 使用SMILES这种流表示方法表示底物结构,这种SMILES是从PubChem化合物数据库中提取出来的。
      3. 再使用基于Python的Scipt去保证同义词(指的是底物的)能够产生相同的输出。
      4. 使用Biopython去从UniProt应用接口和BRENDA数据库获取氨基酸序列这一步使用的是各个氨基酸序列的EC number和组织的信息。
      5. 然后经过几轮数据清洗。

2.2构建深度学习管道

这里主要研究出了一个端到端的学习方法,使用图神经网络学习底物;使用卷积神经网络学习蛋白,然后将其融合,从而能够处理分子序列和蛋白序列。

这种方法中,底物用分子图表示(节点表示原子,边表示化学键);蛋白则用氨基酸特征表示。

使用r-radius subgraphs去获取向量的表示,以便得到更多的可学习参数。

GNN可以更新底物图的每一个原子向量以及其邻接的向量,其中有两个更新,节点和边的更新,以保证点和边的全局信息能够被传递到网络中。最后GNN图神经网络输出一个底物的实数向量。

是用CNN呢,获取到蛋白质被网络压缩后的更低维度向量。

  1. 把蛋白质用氨基酸翻译成词向量(指的是用n-gram 氨基酸分词)。
  2. 然后经过卷积。
  3. 同时底物图的表示也要输入到图神经网络,这里再产生一个输出,指的是底物的分子向量表示。
  4. 然后把两个结果整合起来使用神经网络注意力机制,去训练深度学习模型。
  5. 数据Shuffle;划分训练、测试、验证集;使用r.m.s.e损失(很简单,平均均方损失开根号)训练。
  6. 这个模型表现出来的损失在18个轮次以后在测试集上r.m.s.e达到了1.2左右。

2.3训练好模型以后用它进行酶的分析

这一步为了验证训练好的模型能够识别随机的酶的底物偏好,使用了Kcat值很小的以便识别出高质量的酶。

2.4然后使用训练好的模型对酶和底物对预测Kcat值。

2.5然后自动重建了343中乳酸菌/真菌的模型

用的是Bayesian方法,这个方法广泛用在概率论中,在概率论中条件概率。

简要过程是用这个exGEMs是用刚才这种新方法——DLKcat产生的Kcat值更新参数以后,进行了限制酶模型(343乳酸菌/真菌)的重构。

3.结论

好的效果如下:

  1. 使用这个模型更新过参数新产生的限制酶模型的确在53个记录过表型的物种上的表现超过了原模型。表现在交换律、最大增长率、还有表型预测上。
  2. 提出了基因组数据挖掘工具和染色体水平研究的深度学习工具。
  3. 建立的这个管道能够用于今后的Kcat值的预测和学习。

虽然这个模型效果还可以,但是还有一些不足:

  1. 在一些相近底物的活动上预测值过高。
  2. 没考虑环境因素,如PH和温度的影响。这一点作者提出与其他机器学习方法结合以克服环境因素。
  3. 多重底物和他们催化的一种复合物的问题没能解决。
  4. 其次,这个模型继承自老模型,难免存在局限性。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值