预测多基因扰动的转录结果

tzc_fly

已于 2023-09-14 14:40:01 修改

阅读量731

点赞数

分类专栏：单细胞多组学分析文章标签：人工智能

于 2023-09-13 19:08:21 首次发布

本文链接：https://blog.csdn.net/qq_40943760/article/details/132833281

版权

单细胞多组学分析专栏收录该内容

50 篇文章 45 订阅

订阅专栏

了解细胞对基因扰动的反应是许多生物医学应用的核心，从识别癌症中涉及的基因相互作用到开发再生医学方法。然而，可能的多基因扰动数量的组合爆炸严重限制了实验验证。在这里，作者提出了图增强的基因激活和抑制模拟器（GEARS，graph-enhanced gene activation and repression simulator），这是一种将深度学习与基因-基因关系知识图相结合的方法，利用单细胞 RNA 测序数据来预测对单基因和多基因扰动的转录反应。GEARS能够预测由从未在实验中受到干扰的基因组成的干扰组合的结果。在组合扰动筛选中，GEARS在预测四种不同的遗传相互作用亚型方面比现有方法的精度高40%，并且识别出最强的相互作用是先前方法的两倍。总体而言，GEARS可以预测多基因扰动的不同表型效应（phenotypically distinct effects），从而指导扰动实验的设计。

来自：Predicting transcriptional outcomes of novel multigene perturbations with GEARS
项目：https://github.com/snap-stanford/GEARS

背景概述

细胞对基因扰动的转录反应揭示了细胞如何运作的基本见解。转录反应可以描述多种功能，从基因调控机制如何帮助维持细胞身份到调节基因表达如何逆转疾病表型。这对生物医学研究，特别是在开发个性化治疗方面具有重要意义。例如，通过基因扰动研究来验证药物靶点，增加了临床试验成功的可能性。此外，确定协同基因对可以提高联合治疗的有效性。由于已知复杂的细胞表型是由小组基因之间的遗传相互作用产生的，确定这种相互作用可以促进精确的细胞工程。虽然最近的进展使科学家能够更快地在实验中取样扰动结果，但由于潜在的多基因组合的规模巨大，预测扰动效应的方法是必不可少的。

然而，现有的预测扰动结果的计算方法有其自身的局限性。单基因扰动结果预测的主要方法依赖于以基因调控网络的形式推断基因之间的转录关系。这一方面受到从基因表达数据集准确推断网络的困难，另一方面也受到来自公共数据库的网络不完整的限制。此外，使用这种网络建立的现有预测模型线性地结合了个体扰动的影响，这使得它们无法预测多基因扰动的非加性效应，如协同效应（synergy）。

在这里，作者提出了图增强的基因激活和抑制模拟器GEARS，这是一种集成了深度学习和基因-基因关系知识图的计算方法，以模拟基因扰动的影响。生物知识的结合使GEARS可以预测干扰单个基因或基因组合的转录结果。

结果

基于知识的扰动效应学习

GEARS是一种基于深度学习的模型，用于预测组合扰动一组或多个基因（扰动集）的基因表达结果。给定未受干扰的单细胞基因表达以及选定的扰动集（图1a），输出是扰动后细胞的转录状态。

GEARS使用不同的多维嵌入来表示每个基因和它的扰动（用来表示一个有意义概念的任意数字向量，图1b）。每个基因的嵌入通过训练过程进行调整，以代表该基因的关键特征。将表示分解为两个多维组件，使GEARS具有额外的表达能力，用于捕获扰动响应的基因异质性。每个基因的嵌入顺序与扰动集中每个基因的扰动嵌入相结合，最后用于预测该基因的扰动后状态。

fig1a

图1a：给定未受干扰的基因表达（绿色）和施加干扰的基因表达（红色），预测基因表达结果（紫色）。每个box对应一个单独的基因。箭头表示表达的变化。

fig1b

图1b：GEARS模型架构：(i)对于每个处于无扰动状态的基因，GEARS初始化一个基因嵌入向量（绿色）和一个基因扰动嵌入向量（红色）；(ii)这些嵌入向量被分配为基因关系图和扰动关系图(iii)中的节点特征；使用GNN来组合每个图中邻居之间的信息。每个基因嵌入与扰动集(iv)中每个扰动的扰动嵌入求和，使用跨基因层将所有基因的输出组合并输入到基因特异性输出层(v)。最终结果是扰动后的基因表达。

预测新的具有生物学意义的表型

通过预测来自Norman等人数据的102个基因的所有成对组合扰动的结果，将GEARS应用于新表型的发现（图4a）。为了做出这一预测，使用单基因扰动结果和128个双基因的扰动后基因表达结果来训练GEARS（图4b）。预测的扰动后表达捕获了许多不同的表型簇，包括Norman等人先前发现的那些，此外，GEARS的预测结果呈现了一些新的表型（图4c）。

为了确定这种在训练数据中未观察到的新预测表型的生物学相关性，作者将其与Tabula Sapiens细胞图谱中的原红细胞数据进行了比较。虽然该簇的erythroid marker表达尚未得到实验验证，但其鉴定表明，GEARS能够扩大扰动后表型的空间，超出了扰动实验中观察到的范围。此外，通过检验训练期间所有表型相似的扰动后结果，验证了这一预测的稳健性。
fig4

图4a：预测一组基因的所有成对组合扰动结果的工作流程。
图4b：用于训练GEARS的102个单基因扰动和128个双基因扰动后基因表达的低维表示。
图4c：GEARS预测了实验中观察到的102个单基因的所有5151个成对组合的扰动后基因表达。预测的扰动后表型（非黑色符号）不同于实验中看到的表型（黑色符号）。

基因扰动验证药物靶点流程：

对于最有说服力的湿实验：我们选择某个基因作为靶点或目标靶点相关的研究对象，降低该基因的表达或者让这个基因过表达，然后看药物注射后的情况，如果药物在扰动该基因后表现出显著的不同效应，可以初步认为该基因是潜在的药物靶点。

通过模拟实验来验证潜在靶点：假设g2和g4是从GRN中提取出的两个疾病相关的基因，假设存在一个可以准确模拟的模拟器即GEARS，使用GEARS模拟扰动g2和g4后得到的新的转录结果（其他基因的表达量由于g2和g4的扰动而发生变化）。有正常人的测序结果和病人的测序结果，扰动正常人的g2和g4后，正常人上的扰动模拟结果与真实病人的测序结果相似，证明g2和g4与疾病相关。