论文解读:《通过深度学习从转录谱预测药物疗效》

文章地址:https://www.nature.com/articles/s41587-021-00946-z
DOI:https://doi.org/10.1038/s41587-021-00946-z
期刊:Nature Biotechnology
2021年影响因子/JCR分区:36.6/Q1
2022年6月28日公布影响因子:68.164
发布时间:2021 年 3 月 8 日
数据:https://www.nature.com/articles/s41587-021-00946-z#Sec45
Web在线服务器:https://www.dleps.tech/dleps/index
Github:https://github.com/kekegg/DLEPS
补充文件:https://static-content.springer.com/esm/art%3A10.1038%2Fs41587-021-00946-z/MediaObjects/41587_2021_946_MOESM1_ESM.pdf

1.文章概述

基于靶标蛋白的药物研发是一种成功的策略,但许多疾病机理或者发病机制缺乏明显的靶点来实现这种方法。为了克服这一挑战,该研究描述了一种基于深度学习和基因指纹的药效预测系统 (DLEPS),该系统使用疾病相关基因表达谱的变化作为输入来识别候选药物。DLEPS 使用 L1000 项目中化学诱导的转录谱变化进行训练。该研究发现,以前未知的转录谱的变化Pearson相关系数被预测为 0.74。该研究在3种代谢性疾病中进行了验证,并在小鼠疾病模型中对顶级候选药物进行了实验测试。验证表明,紫苏烯(perillen)、竹节参皂苷IV(chikusetsusaponin IV)和曲美替尼( trametinib)可能分别对肥胖、高尿酸和非酒精性脂肪肝炎具有一定的影响。DLEPS 还可以深入了解致病机制,该研究证明MEK-ERK信号通路是开发抗非酒精性脂肪肝炎药物的靶标。经研究结果表明,DLEPS 是一种药物发现和重定位的有效工具。

2.背景

深度学习在不同领域(例如自然语言处理、计算机视觉等)应用的最新发展表明,高级算法在评估化学物质方面具有潜力,例如分子编码、化学合成路线规划和抑制剂目标预测。结合计算化学领域开发的资源,这些深度学习工具正在改变化学和药物研发的格局(例如,能够对广阔的化学空间进行快速采样,并使研究人员能够对结构-功能关系进行准确预测)。
在过去的几十年中,基于靶蛋白的药物开发一直是一种成功的方法,但这些方法无法解决缺乏明确蛋白质靶标的疾病。开发治疗这些疾病的药物的一种策略是生成一个能够独立于特定目标预测疗效的模型。最近的一项研究表明,使用针对性的深度学习模型发现治疗大肠杆菌感染的新抗生素候选药物。然而,这种模型是根据具体的情况建立的,并且依赖于特定于单一疾病状态的表型数据。也就是说,它缺乏泛化到其他疾病的能力。
鉴于大多数疾病与基因表达谱的特征性变化有关,这些变化被用作反映疾病潜在机制的指标,这一假设体现在连通性图谱 (Connectivity Map,CMap) 概念中。然而,CMap 仅适用于其转录谱已经通过实验评估的分子。所以作者设想,如果有一种化学-转录谱变化模型,能够用来无限的预测小分子,将更容易找到用于大多数疾病治疗的有效药物。首先,作者使用简化的==分子输入线路==输入系统(simplified molecular-inputline-entry system,SMILES)化学编码作为输入,构建了一个神经网络,以拟合在 L1000 项目中测量的 CTP。其次,使用特定于病理背景的基因特征,采用基因集富集分析 (GSEA)来评估化合物对这些疾病的潜在功效。这种方法和模型称为 DLEPS。

2.数据

使用来自 L1000 项目的高通量筛选数据来初步拟合模型。 L1000 涵盖了由 20,000 个小分子诱导的转录变化。使用 t 分布随机邻域嵌入 (t-SNE) 分析化学开发套件 (CDK) 指纹表明,分子聚集成约 50 个组(图 2a)。正如预期的那样,这些分子诱导了不同数量的基因(图 2b)。L1000 数据是从基于网络的集成蜂窝签名项目库中获得的。数据可从 网站 下载。 SHA512 代码经过测试以确保数据的完整性。然后作者使用以下标准进行数据清理:分子必须有超过五次重复;应该使用 RD-Kit(版本 2017.9.01)成功解析分子 SMILE。然后通过忽略板、剂量、治疗时间和细胞系细节来平均每个分子的所有配置文件。作者只拟合了标志性基因。最后获得了 17,051 个有效分子,这些数据被分为训练(14,051)、验证(1,500)和测试(1,500)集(图 2c)。
在这里插入图片描述

3.方法

3.1 将 SMILES 编码为潜在向量和深度神经网络的架构。

在这里插入图片描述
作者尝试了不同的方法将化合物的 SMILES 编码为潜在向量。 SMILES 可以通过变分自编码器(Variational auto-encoder,VAE)作为纯文本编码到潜在空间中,也可以转换为语法树 (GVAE)。最后,作者使用了 GVAE 作为编码模型。分子首先由 RD-Kit 处理的规范 SMILES 表示,然后解析为语法树(76 种节点类型),然后解析为扁平化向量,最后转换为 one-hot 数组,数据的最大长度为 277,所以数据维度为(277 , 76)。编码后的数据传递给三层一维卷积神经网络,卷积层的参数和输出维度分别如下:【Conv1D(9, 9),输出维度为 (269, 9),Conv1D(9, 9),输出维度为 (261, 9),Conv1D (10, 11),输出维度为 (251, 10)】。卷积后的输出切片被扁平化(Flatten)处理 (维度 = 2,510),然后传递给全连接层(Dense),输出平均向量 (维度 = 56) 和半径向量 (维度 = 56) ) 对高维空间中的球体进行编码。选择该球体中随机采样点 (维度 = 56) 的坐标作为潜在向量,然后通过五层全连接网络 (输出维度 = 1,024,每层后面都有一个dropout(0.25)层 = ,前三层的激活函数是relu,第四层的激活函数是tanh,第五层是linear)用于预测转录谱的变化(CTPs,978个标志性基因)。最终,978 个标志性基因通过线性转化转化为 12,328 个基因的转换矩阵。
然后使用具有固定参数的预训练 GVAE 模型进行第一步训练(30,000 steps)。然后将所有参数再微调 10,000 steps。使用均方误差作为成本函数,使用 Adam 作为优化器算法。最后使用 Pearson 相关系数评估了网络的性能。通过设置阈值 Pearson r ,并绘制分数(r > rthreshold)来定义类似 ROC 的曲线。

3.2 DLEPS 的训练

为了建立一个适用于许多疾病的通用模型,特别是对于没有明确目标的疾病,作者开发了包括两个阶段的 DLEPS。
首先,根据来自不同化合物的细胞培养筛选数据构建了一个深度神经网络,以预测 CTPs。
其次,作者选择了反映基因表达水平病理变化的上调和下调基因特征;使用已在 CMap 中采用的 GSEA 来计算富集分数作为功效分数。根据这个分数,最终选择了几个排名靠前的候选小分子,用细胞培养物或直接在动物模型中进行分析。整个过程需要2个输入:化学小分子库与用于打分的基因集合。
作者使用了17,051个小分子的CTP数据库进行最初模型的训练,训练过程中模型很快收敛,在训练集与测试集上都有很好的拟合(图2d)。
在这里插入图片描述
来自训练集和测试集的 CTPs(量化为 z 分数)非常适合(散点图如图 2e、h 所示),曲线下面积(AUC)用于相关系数削减,曲线分别在 0.90 和 0.74 附近(图 2f、g、i、j)。
在这里插入图片描述
DLEPS有2个特征,一是可以精确预测新结构小分子诱导的基因表达谱变化,二是可准确区分结构非常相似甚至只差一个化学基团的小分子诱导的基因表达谱差异。

4.结果

4.1 使用褐变基因特征寻找抗肥胖分子

对于肥胖,挑选了150个上调/下调的基因集合,选用FDA批准的药物和天然产物组成小分子库进行筛选。DLEPS预测了4个化合物,其中3个化合物(I/L/C)可显著降低小鼠体重增长率,并降低小鼠的脂肪含量,但对其瘦体重无明显影响。HE染色结果表明,这些化合物作用后,小鼠白色脂肪褐变区域增加,并且诱导数十个褐变基因(白色脂肪组织变成棕色脂肪组织)表达上调;使白色脂肪组织变成棕色脂肪组织,减轻了小鼠体重,达到了减肥的目的。同时能量呼吸代谢笼显示这些化合物能促进小鼠氧气消耗、二氧化碳生成和全身能量消耗。
在这里插入图片描述
在这里插入图片描述

4.2 利用多基因特征鉴定抗高尿酸血症分子

针对高尿酸血症HUA,使用炎症和肾纤维化相关基因,DLEPS成功预测了天然产物紫苏烯,其可呈剂量的方式显著降低血清尿酸(BUA)、尿素氮(BUN)、肌酐(Cr)、丙氨酸转氨酶(ALT)和天冬氨酸转氨酶(AST)。效果上优于4种阳性药物,还具有抗炎和抗纤维化的优势。紫苏烯还降低了小鼠的肾脏指数,以及肾小管的空泡纤维化程度。对紫苏烯的作用机制研究发现,其可呈剂量依赖性显著降低高尿酸血症模型小鼠血清和肝脏中黄嘌呤氧化酶(XOD)的活性,并且等离子共振(SPR)实验进一步发现紫苏烯可直接结合XOD。
在这里插入图片描述
在这里插入图片描述

4.3 通过重复应用 DLEPS 鉴定抗非酒精性脂肪性肝炎的分子

对于系统复杂性疾病非酒精性脂肪肝炎NASH,目前药物靶点尚不明确。研究人员使用不同阶段NASH的病人转录组进行分析,确定了与NASH疾病相关的基因指纹,以此作为输入,再从扩展后的小分子库中筛选出了3个小分子。以蛋氨酸-胆碱缺乏饲料喂养小鼠建立NASH模型,发现其中2个——曲美替尼和GI02002具有治疗效果,可显著降低ALT、AST和甘油三酯(TG)水平。组织学结果表明,曲美替尼可显著降低模型小鼠的脂质积累,改善肝脏紊乱。基于其是MEK-ERK信号通路抑制剂,因此继续探讨了其它2种ERK抑制剂对NASH的改善作用,结果发现这2种ERK抑制剂也可显著改善模型小鼠的疾病相关指标。
在这里插入图片描述
在这里插入图片描述
使用由液体果糖 (HFD+HF/G) 诱导的 HFD 饮食模型更详细地探讨了曲美替尼的作用,这是另一种常见的 NASH 模型。曲美替尼治疗消除了脂质聚积,降低了肝脏指数以及胶原纤维。曲美替尼治疗还降低了 ALT、AST、CHO、TG 、血清葡萄糖和胰岛素等的水平。首次揭示了MEK-ERK通路在缓解NASH相关的肝脏病理中的重要作用。
在这里插入图片描述
在这里插入图片描述

5.结论

综上所述,DLEPS可成功应用于筛选治疗肥胖、HUA和NASH的化合物,总体准确率超过50%。并且DLEPS系统可克服传统药物开发的困难,基于基因指纹就可预测候选分子,可以在复杂疾病上找到更好药效的化合物,更快开发工具分子。值得一提的是,DLEPS对于尚无明确靶点的疾病可能会带来意料之外的疗效,为发现疾病致病机制以及靶蛋白方面奠定了基础。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值