som神经网络聚类简单例子_单细胞遇上深度学习(基于模型的聚类算法)

064c3dc809a72d089f3a7fa13e99777d.png

机器学习方法已经广泛的应用于生物学领域,在最近大热的单细胞测序分析领域也不外如是。当单细胞聚类这一问题遇到深度学习方法之后应该会产生不一样的结果。

今天要介绍的文章是发表在nature machine intelligence上的《Clustering single-cell RNA-seq data with a model-based deep learning approach》基于模型的深度学习方法聚类单细胞RNA-seq数据。

背景介绍:

单细胞数据具有以下几个特点:

  1. 数据疏松(由于测序过程的低捕获率)
  2. 假0现象(由于drop out带来的false zero)
  3. 细胞之间的高度变异性

6b99922ec8046bc79af55493399c9521.png

为了解决以上问题,以前有一些方法已经被开发出来。比如Xu and Su propose SNN- Clip 利用共享最近邻概念的方法(基于图聚类)这样的策略可以处理高维数据。有一些研究者采取更加复杂的聚类方法比如迭代聚类,可以用于检测亚型之间的关系,并且通过差异基因分析进行深入地验证。DendroSplit 是一个可解释的聚类框架适应特征选择来解释单细胞数据中生物学上有意义的种群的多个水平。multi-kernel learning (SIMLR) 进行单细胞解释,本质上是一种谱聚类的方法,结合了多个内核来学习最适合数据结构的可靠性距离度量。为了表征单细胞数据的稀疏性,park和同事还提出了多核谱聚类方法,但是建议通过L1惩罚加强一个稀疏结构(MPSSC) 。这两种很新的技术代表了单细胞转录组数据的聚类方法,但是尽管这些基于谱聚类的方法表现出不错的性能,但是他们有两个问题:1.首先他们依赖整个图的laplacian矩阵https://www.jianshu.com/p/f864bac6cb7a;该矩阵的计算和储存成本非常高,就细胞的数量而言,拉普拉斯矩阵的计算和储存具有二次或者超二次的复杂度,并且矩阵的分界需要三次复杂度。第二点谱聚类方法没有明确建模单细胞转录组数据的特征,例如过度分散和零膨胀。

另一个研究的重点是估算由于scRNA-seq数据丢失导致的缺失值(假零)这种估算将改善包括聚类在内的各种下游分析。最近在这方面已经开发了几种新方法和工具了,包括统计模型CIDR (clustering through imputation and dimensionality reduction) scImpute, MAGIC2 and SAVER以及深度学习方法DeepImpute, DCA (deep count autoencoder) and scScope。

  1. CIDR是一种类似于PCA的快速算法,考虑了dropouts。它合并了一个简单的隐式插补法(当没有特定的值归因于遗漏的个案时,就会发生隐式插补)来减轻单细胞转录组数据中数据丢失的影响,然后基于前几个主要的坐标进行聚类。
  2. Deepimpute使用标准的神经网络来预测丢失值,该方法使用高度相关的基因并具有足够的读数覆盖范围。
  3. scScope和DCA都基于自动编码器Autoencoder,这是一种深度神经网络(DNN)用于以无监督的方式学习进行有效的特征表示。scScope本质上会重复三次常规的自动编码器运行,将前一次的最终输出用作下一次运行的初始输入,与常规的自动编码器相比,DCA建议使用基于零膨胀的负二项分布式ZINB模型的损失函数代替常规的均方误差MSE顺势函数,以更好地表征scRNA-seq数据

但是这些针对插补的方法并未针对聚类进行设计和优化,如作者的方法和DCA的比较所示,这种划分的策略对于聚类而言并不是最优的。由于存在“维数诅咒”因此在小维度上的聚类性能要比在高维度上的聚类性能更好。DNN是对非线性转化函数进行参数化的自然选择,该函数将原始高维空间数据映射到较小的潜在空间。

因此,该文章作者提出一种深度学习聚类方法,该方法将ZINB模型和聚类损失集成在一起,在执行降维时,显式优化聚类。在提出的框架中,基于ZINB模型的自动编码器学习率将scRNA-seq数据的读取计数矩阵映射到低维潜在表示的非线性函数,而在潜在空间上的聚类任务是通过kullback聚类执行的KL散度的深度嵌入算法(DEC)。scDeepCluster的计算效率高,这更加适合用于大型单细胞转录组数据集的分析。

c8b23aae5525fcb181d6cfd78522eb3d.png

基于ZINB模型的自动编码去噪。自动编码器是一种神经网络,用于在无监督情况下学习有效的特征表示。去噪自动编码器是一种自动编码器,他接受损坏的数据点作为输入,并且经过训练用以预测原始未损坏的数据点作为输出。自动编码器具有一个低维瓶颈层来学习潜在特征(Bottleneck layer又称之为瓶颈层,使用的是1*1的卷积神经网络。之所以称之为瓶颈层,是因为长得比较像一个瓶颈 https://zhuanlan.zhihu.com/p/98692254)事实证明,去噪自动编码器在学习数据的鲁邦表示时更加强大,因为它具有学习输入的表示的能力,在这里我们应用降噪自动编码器技术将读取的计数的输入映射到嵌入式空间以聚类。实际上,我们首先使用随机的高斯噪声破坏输入,然后使用规则的全连接层构造自动编码器。形式上,输入x被噪声破坏。

c2b7315634d45b233276f1e00c272c52.png

在通过基于ZINB模型的数据去噪之后,使用kullback聚类执行的KL散度的深度嵌入算法。

8e4583e0170cb371aef6f97950cab2ad.png

最后在模拟产生的数据集和实际数据集上运行该模型并进行比较。

9809fd3eafaabd9f2eefb67a263b763b.png

d7869faec3314ef68975e577a57bcb4b.png
聚类结果

由于单细胞测序的通量不断提高,因此一种能够与处理大数据的分析方法变得十分重要。我们模拟了一个有3,000个基因的100,000个细胞的大数据及,这些细胞中有十个组,并从5,000个细胞到100,000个细胞进行了抽样,显示这些下采样数据集的与训练和聚类阶段的时间。我们可以看到与谱聚类的二次运行时间复杂度不同,scDeepCluster的运行时间与细胞数成线性关系,这样的计算效率是的scDeepCluster称为大型scRNA序列的一个非常有吸引力的工具。

609f626fde0c05ea0ac8f4dcc32023bb.png

82e60fb3290ef3d94a29016ccb94c426.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值