single_cell_tutorial 教程

1-介绍

1、AnnData 不是一个单一的表格,而是一个包含多个表格和矩阵的复杂数据结构,用于处理和存储单细胞基因组数据。

AnnData对象包含以下主要部分:

  1. var:基因的元数据(Pandas DataFrame格式),包含每个基因的属性信息。例如每个基因的ID、名称、染色体位置等。可以将其看作是基因(列)的属性数据。
  2. obsp:细胞之间的对称关系矩阵(通常是稀疏矩阵)。
  3. obsm:细胞的多维数据矩阵(Pandas DataFrame格式),如降维结果。
  4. X:核心数据矩阵,通常是细胞(行)和基因(列)的表达计数矩阵。
  5. obs:细胞的元数据(Pandas DataFrame格式),包含每个细胞的属性信息。每个细胞的类型、状态、处理条件。可以将其看作是细胞(行)的属性数据。
  6. layers:不同类型的计数矩阵(字典格式),如归一化后的计数矩阵、原始计数矩阵等。
  7. varm:基因的多维数据矩阵(Pandas DataFrame格式)。
  8. varp:基因之间的对称关系矩阵(通常是稀疏矩阵)。
  9. uns:未命名数据(字典格式),存储其他任何附加信息。

重点:AnnData数据格式,每个部分代表什么;单组学、多组学

2-预处理和可视化

2-1质量控制

1、由于测序深度的限制,受限于基因自身的表达量,我们会发现单细胞测序数据是一个有很多“0”值的矩阵,我们称这种现象为“drop-out”,这些零一方面可能是测序深度不够导致基因没有捕获到,另一方面可能是这些基因本身没有表达。

2、质量控制

第一步是过滤低质量的细胞。当细胞检测到的基因数量较少、计数深度较低且线粒体计数较高时,细胞膜可能会破裂,这表明细胞正在死亡。

第二步双细胞的过滤。双细胞被定义为在相同的细胞条形码(barcode)下进行测序的两个细胞,例如,如果它们被捕获在同一个液滴(droplet)中。这也是为什么我们一直使用barcode而不是cells的原因。双细胞由同型(homotypic)与异型(heterotypic)所构成

第三步环境 RNA 的校正。注:本节可能会导致计数矩阵不为整数,使得部分包失效,所以该分析除非你很明确环境RNA的干扰十分严重,不然我认为是可以被跳过的。

2-2 归一化

思考

  • 1、我们在进行移位对数分析的时候,sc.pp.normalize_total(adata, target_sum=None, inplace=False)中的target_sum使用了默认值,在seurat中默认值是10,000,在一些教程中设定为1,000,000,我们虽然对这个值的意义进行了简单介绍,但你认为不同的值背后的含义是什么?

不同的target_sum值的意义在于:

  • 基因表达量的比较:较小的值(如10,000)会使较低表达基因的差异更显著,而较大的值(如1,000,000)则更能保留高表达基因的细节。

  • 计算复杂性:较大的值需要更多的计算资源和存储空间。

  • 适应性:选择合适的target_sum值应该基于具体的研究需求和数据特性。

  • 2、我们为什么会使用皮尔森残差来计算归一化值,相对于移位对数而言有什么更好的地方?

我们观察到,scRNA-seq数据中的细胞间变异包括了生物异质性以及技术效应。而移位计数并不能很好的排除两种不同变异来源的混淆误差。

皮尔森近似残差利用了“正则化负二项式回归”的皮尔森残差来计算数据中潜在的技术噪音,将计数深度添加为广义线性模型中的协变量,而在不同的归一化方法的测试中,皮尔森残差法可以消除计数效应带来的误差,并且保留了数据集中的细胞异质性

  • 3、你可以找出别的归一化方法,并比较其与移位对数,皮尔森残差的好坏吗?

归一化方法比较

  • 移位对数归一化

移位对数归一化是通过对数变换来减小数据中的极端值影响,使得数据变异性更加稳定。这种方法快速高效,适用于大多数常见的scRNA-seq数据,但在处理高变异性数据时可能效果有限。

  • 皮尔森残差归一化

皮尔森残差归一化通过计算实际值与预期值之间的残差来标准化数据,更好地处理稀疏数据和零值,对高表达基因的变异性处理也更好。这种方法能够更有效地减少数据中的过度离散性。

  • SCRAN

SCRAN方法通过对细胞进行聚类,计算归一化因子,更好地考虑细胞群体的异质性,适用于大规模数据集,能够更好地处理过度离散性。

  • SCTransform

SCTransform基于广义线性模型,通过负二项分布对每个基因进行拟合,然后标准化残差,对不同测序深度和技术变异处理效果较好,能够有效减少数据中的过度离散性。

综合比较

  1. 简单性:移位对数归一化方法最为简单,适用于大多数常见的数据集。
  2. 处理稀疏数据:皮尔森残差和SCTransform方法对稀疏数据的处理效果较好。
  3. 计算资源:移位对数归一化所需计算资源最少,SCRAN和SCTransform则需要更多的计算资源。
  4. 适应性:SCRAN和SCTransform对数据的适应性更广,能够处理不同类型和规模的数据集。

以上,就是本章所要介绍的归一化内容,通过benchmark的测试,我们发现移位对数适用于大多数任务。但是如果我们的分析目标是寻找稀有细胞的时候,可以考虑采用皮尔森残差法来进行归一化。

重点内容

1、在前面的教程中,我们从数据集中删除了低质量的细胞,包括计数较差以及双细胞,并将数据存放在anndata文件中。

由于单细胞测序技术的限制,我们在样本中获得RNA的时候,经过了分子捕获,逆转录还有测序。这些步骤会影响同一种细胞的细胞间的测序计数深度的变异性,故单细胞测序数据中的细胞间差异可能会包含了这部分测序误差,等价于计数矩阵中包含了变化很大的方差项。但在目前的统计方法中,绝大部分模型都预先假定了数据具有相同的方差结构。

“归一化”的预处理步骤旨在通过将“UMI的方差”缩放到指定范围,来调整数据集中的原始UMI计数以实现模型建模。而在真实的单细胞分析中,有不同的归一化方法以解决不同的分析问题。但经验发现,移位对数在大部分数据中的表现良好,这在2023年4月的Nature Method上的基准测试中有提到。

2、两种不同的归一化技术:移位对数变换和皮尔逊残差的解析近似。

移位对数有利于稳定方差,以利于后续降维和差异表达基因的识别。

皮尔森近似残差可以保留生物学差异,并鉴定稀有细胞类型。

1)移位对数归一化:处理单细胞RNA测序(scRNA-seq)数据的方法,目的是使得不同细胞之间的基因表达水平更加可比。

你有一堆装满豆子的罐子,每个罐子的豆子数量不同。有的罐子装得多,有的罐子装得少。为了比较每个罐子的豆子数量,我们先需要让所有罐子的豆子数量变得差不多。然后,我们再去看每个罐子里面各种颜色的豆子分别有多少。

步骤1:调整罐子里的豆子数量——用不同的尺寸因子放缩

步骤2:对数变换——让数量差异变得更小,更加平滑

为什么要做移位对数归一化?

  1. 更公平的比较:原始数据中的细胞可能因为不同的测序深度导致总的基因表达量差异很大。归一化处理后,这种差异被消除了,我们可以更公平地比较不同细胞的基因表达水平。

  2. 减少数据噪音:对数变换可以减小数据中的极端值影响,使得数据更加平滑,更容易识别出有意义的信号。

  3. 后续分析的基础:归一化后的数据更适合进行后续的统计分析,如主成分分析(PCA)和差异表达分析。

2)皮尔森近似残差

问题背景

想象你正在进行一项调查,记录了每个人的苹果数量。但每个人带来的苹果数量不仅受他们自己实际拥有的苹果数量影响,还受测量误差影响。例如,有的人可能多带了一些,有的人可能少带了一些。这些误差使得你难以准确比较每个人之间的实际差异。

传统方法的问题

之前的移位对数归一化方法就像是对每个人的苹果数量进行一个统一的调整,减小了测量误差的影响,但它并不能完全区分开实际拥有的苹果数量和测量误差。

皮尔森近似残差归一化的解决方案

皮尔森近似残差归一化方法就像是你请来了一个统计学专家,帮你更准确地调整每个人的苹果数量,使得这些调整后的数据更能反映每个人实际拥有的苹果数量,同时消除测量误差的影响。

步骤1:预测每个人应该有多少苹果

首先,这个专家根据每个人的具体情况(例如,他们的年龄、身高等信息)预测了每个人“应该”有多少苹果。这就像是给每个人预期的苹果数量。

步骤2:计算差异

然后,专家计算了每个人实际带来的苹果数量和预期苹果数量之间的差异。如果某人实际带来的苹果比预期的多,那

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: dspace_systemdesk_tutorial是一个关于DSpace系统桌面的教程。DSpace是一个用于保存、组织和发布数字内容的开源软件,它可用于建立数字库、机构知识库、学术档案等领域。系统桌面是DSpace系统中的一个重要组成部分,它提供了一个用户友好的图形化界面,让用户可以快速方便地操作系统。 dspace_systemdesk_tutorial包含了DSpace系统桌面的安装、配置、使用等方面的详细指导。通过这个教程,用户可以快速掌握DSpace系统桌面的基本使用方法,了解系统桌面的各种功能和特点,以及掌握一些高级的操作技巧和管理方法,使用户能够更好地管理和维护系统,提高数字资源的组织和发布效率。 通过学习dspace_systemdesk_tutorial,用户可以深入了解DSpace系统桌面的工作原理和构成,掌握系统的配置和管理方法,从而更好地利用DSpace系统来保存、组织和发布数字内容。同时,dspace_systemdesk_tutorial还提供了丰富的实例和案例,让用户可以更加直观地了解DSpace系统桌面的应用场景和实际效果,为用户提供了更为全面和贴近实际的指导。 ### 回答2: dspace_systemdesk_tutorial_ 是一份系统桌面教程,主要是为用户提供如何使用 DSpace 系统桌面的指南。DSpace 是一个开源的存储、检索和分发数字内容的软件平台,DSpace 系统桌面是其提供的一种基于 Web 的用户接口。该教程包含了如何使用 DSpace 系统桌面来管理数字内容、设置用户权限、创建和检索元数据等方面的内容。通过这份教程,用户可以快速了解和学习如何使用 DSpace 系统桌面,从而更好地管理自己的数字内容。需要注意的是,该教程不仅适用于初学者,也适用于那些已经使用过 DSpace 系统桌面或其他数字存储平台的用户。总之,dspace_systemdesk_tutorial_ 对于使用 DSpace 系统桌面的用户来说是一份非常有用的指南,可以帮助用户更好地利用数字内容,提升工作效率。 ### 回答3: dspace_systemdesk_tutorial_指的是DSpace的系统管理控制台教程,DSpace是一个开源数字档案存储和管理系统,用于将数字文献、图片、视频等学术研究数据进行管理、保存和公开访问。该教程主要面向系统管理员,涵盖了DSpace系统管理控制台的基础功能和高级特性。 DSpace系统管理控制台可以通过Web浏览器访问,提供了许多管理和配置DSpace的选项。该教程的目的是帮助管理员熟悉和掌握这些选项,从而优化DSpace的性能和功能。 教程的内容包括管理功能、配置选项、设置授权、定期维护和备份等。管理员将学习如何添加、删除或编辑社区、集合和项,管理授权级别和权限,配置元数据方案,定制主题和界面,设置索引和搜索选项,以及监控DSpace系统的运行状态和日志。 此外,该教程还介绍了如何在DSpace中创建和管理位于远程服务器上的持久性标识符(PID),比如DOI和Handle。管理员也可以学习如何设置DSpace的存储策略,并能够利用云存储实现DSpace的扩展和备份。 总之,DSpace系统管理控制台教程是一个非常实用的指南,为DSpace的系统管理员提供了全面的DSpace配置和管理知识,让他们能够从容应对DSpace的管理工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值