Nat. Genet | 单细胞多组回归模型识别功能和疾病相关增强子,并实现染色质潜力分析
本文提出了一种名为SCARlink的基因调控模型,通过结合单细胞RNA测序(scRNA-seq)和单细胞开放染色质测序(scATAC-seq)数据,利用正则化的泊松回归方法预测基因表达并链接增强子与靶基因。SCARlink在多个高覆盖数据集上表现出色,在低覆盖数据集上也具有可比的效果,并能够识别与细胞类型相关的基因增强子,进而为研究基因调控网络和疾病相关变异提供了有力工具
引言
多组学单细胞测序技术,对同一单个细胞进行染色质可及性(scATAC–seq)和基因表达(scRNA-seq)测量,需要开发分析方法将增强子与基因连接起来,推断基因调控网络,并基于染色质潜能的概念解析发育轨迹
当前方法的基本思路:
① 识别单个可及区域与基因表达水平之间的成对相关性,以实现增强子与基因的连接。例如,最近的一种方法使用泊松回归来测试峰值可及性与基因表达之间的成对相关性,同时建模批次效应或细胞特异性协变量,目的是将位于这些峰值中的非编码遗传变异与目标基因连接起来
② 标准的scATAC–seq分析方法使用简单的评分方案将数据转换为类似scRNA的读数,这类似于基因表达,基于在基因启动子附近或整个基因座(包括基因体及其周围的固定窗口)聚合染色质可及性,以获得一个推测的基因表达