编辑丨ScineceAI
该论文介绍 MATES:一种基于 深度学习 的单细胞水平转座子定量工具。MATES 使用基于自编码器的模型,通过分析转座子区域周围独特比对读段的分布,概率性地将多重比对转座子读段分配到特定位点。通过 深度神经网络 ,MATES 学习独特读段分布与多重比对读段来自特定位点的可能性之间的关系。
这一创新方法在多个单细胞测序平台上进行了严格验证,包括 10X Genomics(scRNA-seq、scATAC-seq 和 Multiome)、Smart-seq 和空间转录组学(10X Visium)。该工具的多样性和精确性已带来了新的生物学见解,为更广泛的应用和实验验证铺平了道路。
该研究以「 MATES: a deep learning-based model for locus-specific quantification of transposable elements in single cell」为题,于 2024 年 10 月 11 日发布在《 Nature Communications》。
背景介绍
转座子(Transposon),又称转座元件或跳跃基因,是哺乳动物基因组的重要组成部分,在基因调控、基因组进化和细胞间异质性中发挥着关键作用。尽管部分转座子仍然活跃并能够在基因组中跳跃,但大多数转座子已经积累了突变和退化,使其失去了主动转座的能力。因此,许多转座子被保留在基因组中并作为调控元件发挥作用。这些非编码功能包括调控基因表达以及形成长链非编码 RNA(lncRNA),这些 RNA 参与关键的调控网络,影响基因表达和细胞功能。尽管转座子扮演着这些重要角色,但由于其重复序列和高拷贝数导致的多重比对测序读段(reads)定量的挑战,我们在单细胞水平上对特定位点转座子的理解仍然有限。
转座子高多重比对读段的挑战
从转座子的高对比读段中准确 量化 表达量是这个领域的一项重大挑战。许多现有的单细胞转座子 量化 工具过度依赖比对算法来处理多重比对读段。然而由于转座子的重复性,利用对比算法 量化 转座子表达量存在局限性,即他们忽略了转座子周围的基因组上下文信息。
特定位点转座子量化 的挑战
现有的方法未能实现精确的特定位点转座子定量,他们有些只 量化 转座子亚家族的表达量,有的仅仅将读段分配到对比算法提供的“最佳” 位置,因此在处理转座子区域中普遍存在的多重比对读段方面非常有限。这些方法忽视或回避了由转座子重复特性导致的多重比对读段分配挑战,这种忽视可能低估了转座子定量中分配多重比对读段的复杂性和不确定性。
方法总结
利用深度学习 模型解决转座子多重比对读段的挑战