单细胞测序数据整合

FF在努力

已于 2022-06-16 22:35:32 修改

阅读量8.4k

点赞数 10

文章标签： r语言数据分析

于 2022-06-16 22:33:55 首次发布

本文链接：https://blog.csdn.net/G2530051386/article/details/125312733

版权

本文介绍了单细胞测序数据整合的原理和一般步骤，包括Normalization、Feature selection及Identification of anchor correspondences。详细阐述了Seurat v3和harmony两种方法的实现过程，通过数据处理和分析去除批次效应，实现不同实验数据的融合。

摘要由CSDN通过智能技术生成

一、单细胞测序数据整合的原理

单细胞测序数据的整合，有点类似于基因组的拼接和比对过程。整合过程需要找到两个dataset之间的相似的部分，在单细胞测序数据则意味着两个两次不同实验的dataset中有一部分细胞具有相似的生物学状态（虽然这簇细胞的基因表达绝对值不一定相同，但是这簇细胞整体具有一致性或相似性）。

A 两个来自不同实验的单细胞数据，有相似生物学状态的细胞群，但是query dataset具有特有的细胞群

B 进行常规的相关性分析，并进行Log2标准化处理。

C 在同一个共享空间下，鉴定两个dataset之间相互最近的邻居(MNN)，这些cells就可以作为两个dataset之间的anchors细胞，从而帮助进行dataset 整合。

D 对于每一个anchor对，会给予一致性给出打分值

E 基于这些anchors细胞以及打分值，计算矫正向量，从而进行数据集的整合

来源：单细胞测序数据整合 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/158974557?ivk_sa=1024320u

二、一般步骤

来源：单细胞数据整合 Comprehensive Integration - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/465227964

（1）Normalization

在所有的分析中，我们都要对 single-cell RNA-seq数据集采用标准的预处理。除非特别声明，我们首先对所有的数据集进行 log-normalization, lognormalization 的目的是防止数据差异完全被高度表达的基因控制，在log-normalization 后，它就会与基因表达水平独立，使得表达水平较低的基因不易被忽视

之后，我们再做 z-score transformation, 它是进行降维操作如PCA之前的一个标准步骤。z-scroe transformation 的目的见下图，由于技术的原因，不同细胞检测到的转录水平是不一样的，即数据有noise, 进过 transfrom之后，不同细胞之间的数据才有可比性。