seurat提取表达矩阵_基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...

随着单细胞转录组测序技术的发展,使得我们有机会捕获单细胞水平的转录组,从而以单个细胞为单位来探索复杂的生物学问题。为了更好地从单细胞转录组数据中获得细胞异质性等有效信息,高效、准确的单细胞分群相关算法是推动该领域发展的必要条件,因而在过去的十年,大量的单细胞转录组分群算法被开发出来。这些分群算法往往包含归一化、特征选择、降维分析、距离计算、分群、差异表达分析等几个关键步骤。已有的算法也往往均针对改进这些关键步骤而得以开发。但是,已有的算法中,很少有致力于优化特征选择这一关键步骤的算法,大多数算法通过选择表达高变异特征(基因/转录本) 来实现这一步骤,往往会导致噪音的引入以及有效特征的丢失,结果被高表达基因所主导。

2020年12月10日,上海交通大学分子医学研究院/厦门大学化工学院杨朝勇,厦门大学化学化工学院宋彦龄与复旦大学生命科学学院李晋合作在Nucleic Acids Research杂志上发表文章Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data开发了一个新的特征子空间分离策略以及对应分群新算法ENCORE

d4174ffad7e6aec0a34f9e26b7bd3743.png

ENCORE 提出了一种新的特征选择策略从而来优化单细胞分群过程。如图1所示,ENCOER主要分成三个步骤:子空间分离、子空间内分群、一致性分群。具体地,在不考虑具体表达量时,表达密度谱模式相近的特征往往体现相似的细胞异质性信息,因此通过对表达密度谱模式的分群可以将特征分离到不同的子空间,这些子空间各个维度包含相似的异质性信息从而更有利于异质性信号的提取。ENCORE进一步通过簇识别,来判断子空间内异质性信息的丰富程度,并将其定义为“熵”。在低熵子空间内,细胞分布规则,具有明显的分群信息;而高熵子空间中,细胞分布自由,不具有明显分群信息。随后,通过筛选低熵子空间来进行更准确的特征选择,这一策略不但可以保留低表达的有效特征并且能够将相似信息的特征分离到相同的子空间从而使得分群信号更为集中。最后,为了整合不同子空间的分群信息,ENCORE又设计了一个新的一致性分群算法,放大多个低熵子空间中共有信号亦保留特有信号。在这样的框架下,ENCORE可以得到准确的细胞分群和二维可视化结果。

b955a830881aac65e365bf7217f54891.png

图1. ENCORE算法示意图

通过对12个标准数据集以及浙大小鼠图谱数据的分析,ENCORE验证了其子空间分离的有效性以及对应分群算法的准确性。首先,如图2所示,ENCORE的子空间分离步骤可以有效分离出多个不同信息量的子空间。图2A中,子空间2,3,4具有规则的分群分布,而子空间1中细胞分布相对无规则;图2B中,子空间34和43体现了非常良好的分群信息,而其他子空间几乎无分群信息。通过与Seurat的特征选择结果进行比较,ENCORE所选择的特征具有更加随机的变异值和均值,体现了其与传统特征选择的差别(图3)。

bc5a5b30650716ed65945556786c1ad5.png

图2. 子空间分离效果

7900ce4e8d9b44ebc1a323558df6fdba.png

图3. ENCORE与Seurat特征选择结果比较

随后,研究人员将ENCORE的分群准确性与其他四种被广泛使用和认可,且就有高集成性的单细胞分群算法(Seurat, SIMLR, t-SNE + K-means and pcaReduce)进行了比较。这里研究人员以12个具有实验验证分群标签的标准数据集作为测试数据。并利用NMI,ARI两个测度来衡量实验分群标签和预测分群标签之间的一致性情况,一致性越高说明算法的准确性越高。通过比较,发现在12个数据集上,ENCORE都表现出最好或者较好的分群准确性,特别是在细胞量稍小的数据集上ENCORE亦是表现出最好的准确性(图4A)。值得一提的是,这些数据来自不同的测序平台,使用了不同的归一化方式并具有不同的测序深度和数据量大小,但是ENCORE的表现相对于别的算法均要稳健。另外,ENCORE的可视化结果相对其他算法输出的可视化结果更为直观,且与分群结果高度一致(图4B)。

57266e23b4a4b989c920b48d8bb8e2e9.png

图4. ENCORE与其他算法的准确性和可视化结果比较

为了进一步评估ENCORE的性能,研究人员将其应用于一个小鼠脂肪祖细胞的数据集(图5)。与Seurat的分析结果相比,ENCORE可以将该数据集中的细胞进行更为清晰的分型,并可以提取出更特异的亚型标记基因。研究人员对其中一个亚型的标记基因Mgp的功能进行了初步探索。发现在3T3-L1细胞中过表达Mgp,对与脂肪细胞分化相关的基因表达无明显影响,但是可以显著增强Dio2基因的表达。Dio2蛋白与T4和T3的代谢密切相关。研究人员发现过表达Mgp可以在胰岛素刺激下,显著提高细胞中T3的量。这些结果提示ENCORE可以从相对难分析的数据集中,发现具有重要生物学意义的信息。

ba2d500f88084041e9406968c4bd3192.png

图5. ENCORE在小鼠脂肪祖细胞分群当中的应用

基于相似表达密度谱的特征更倾向携带相似异质性信息这一假设,杨朝勇课题组和复旦大学李晋课题组开发了一个新的特征子空间分离策略以及对应分群新算法ENCORE,从而实现有效的特征选择和异质性信号的提取。通过标准数据集的测试,ENCORE相较于已有算法,表现出较好的准确性和稳定性,为单细胞分群和可视化提供了新的手段和思路。并基于生物学应用,ENCORE展示了其在生物学问题探讨方向的巨大潜力。

原文链接:

https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1157/6030236?searchresult=1

bda9f423f2b4620dbde23588ad98b474.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值