标题:scPair: Boosting single cell multimodal analysis by leveraging implicit feature selection and single cell atlases
发表期刊:NC
发表时间:2024年10月25日
1、研究背景
多模式单细胞分析在同一细胞中描绘多组特征,并广泛用于鉴定和绘制染色质和mRNA之间的细胞状态,以及将调控元件连接到靶基因。
2、研究动机
①现有的研究方法都采用了采用特征选择作为初始预处理步骤,并且这种处理是针对每个数据模态独立执行的。它们没有考虑所选择的特征,对于其他模态的特征是不是相关的。为一个数据模态选择的与另一模态的特征不相关的特征越多,预期细胞状态映射性能越差。
②目前一些主流的计算多模态方法依赖于多模态数据集,通过匹配或锚定的特征和细胞来定义数据模态之间的映射。尽管新兴的对角整合方法倾向于施加更宽松的约束条件,但由于缺乏关于同一细胞类型在不同特征空间中的映射方式的先验知识,精确实现对角整合仍然充满挑战。此外,多模态数据集通常表现出较低的有效测序深度(例如,每个细胞平均映射到的唯一分子标识符数量较少),并且与针对相同细胞群体的单模态数据集相比,其通量也更低。这导致了在不同数据模态之间映射细胞状态的统计功效的下降。
3、研究方法:scPair
①模型part a部分:由前馈网络对组成,输入为一种模态的数据,但是可以输出另一种模态的数据;【区别于其他方法的地方:其他方法可能先移除了90% 的RNA特征和75% 的ATAC特征,但是scPari 将所有的特征都进行输入,并且在训练期间自动识别用于映射到其他数据模态的特征。】
【例如,在图1a中的RNA FFN中,RNA细胞状态层是预测许多ATAC特征的基因的低维表示(因此更可能映射到ATAC细胞状态空间)。这就产生了scPair的属性,我们称之为隐式特征选择:当scPair被训练为仅基于RNA特征预测所有ATAC特征时,特征选择由scPair隐式执行。两个细胞状态层通过双向前馈网络直接连接,该网络用作细胞状态映射函数】