scRNA-seq | 吐血整理的单细胞入门教程(注释与初步过滤)(三)

写在前面

本期我们介绍一下如何处理rawdata,将Reads转为 Count Matrix。🤩

参考基因组及注释

1️⃣ 目前,大多数scRNA-seq是使用人类或小鼠的组织、器官或细胞培养物进行的。常用的就是UCSChg19hg38mm10等),和GRCGRCh37GRCh38GRCm38)。

二者在主要染色体上是对等的(如hg38chr1 = GRCh38chr1),但在一些小的位点上会有细微差异。

基因组注释过程包括定义基因组转录区域,明确exonintron,将其分成protein coding, non-coding等。🤯

  • 举个栗子🌰
  • 假设我们有一个基因,包含5转录本组成的基因。其中3个编码(红色)和2个非编码(蓝色)。

Transcript and intron-exon structure of a typical eukaryotic gene

在实际操作中,我们通常可以下载GTFGFF3格式的文件进行注释。每个基因都含有一个ID,而这个ID是唯一的。🤗

Note! 这里也提醒大家在实际操作中,尽量使用ID进行分析操作,而不要使用symbol,当然在展示结果的时候你需要转换回symbol方便阅读。🤜🤛


2️⃣ 我们常用的人类小鼠基因组注释包括RefSeq, ENSEMBLGENCODE,实际应用中选择最新的版本就可以了,会有更多的已知基因👇。(这里就不做具体介绍了)

Sankey diagram of gene type changes in GENCODE versions

Full-length scRNA-seq的处理

  • 处理方法与bulk RNA-seq类似。

  • Full length scRNA-seqraw data的处理通常分两步进行:比对(read alignment)和计数 (read counting)。

  • 常用软件:STARhisat2。

  • normalization方法:推荐使用TPM

Droplet-based scRNA-seq的比对和定量

1️⃣ 首先我们要搞清楚scRNA-seq都有哪些产物。👇

  • cDNA片段 (识别转录本);
  • Cell barcode (CB,识别细胞);
  • Unique Molecular Identifier (UMI,减小PCR扩增带来的bias)。

2️⃣ 典型的scRNA-seqworkflow包括以下几个步骤:👇

  • cDNAmappingreference上;
  • 计算基因reads
  • 计算细胞reads(用到cell barcode);
  • 计算的RNA数量(UMI去重)。

具体步骤

5.1 Read Mapping

处理10x Genomics Chromium scRNAseq数据,我们通常要用到Cell Ranger,具体原理我们在这里就不做具体介绍了,大家有兴趣去google一下吧。😂

这里只介绍一下外显子(exon)的定义,即reads比对到外显子50% 以上,就可以定义为外显子

Classification of aligned reads in Cell Ranger


5.2 Cell Ranger Reference

在选择Reference的时候,大家可以按以下table进行选择。👇

Cell Ranger ReferenceSpeciesAssembly/AnnotationGenes before filteringGenes after filtering
2020-AhumanGRCh38/GENCODE v326066836601
2020-Amousemm10/GENCODE vM235542132285
3.0.0humanGRCh38/Ensembl 935839533538
3.0.0humanhg19/Ensembl 875790532738
3.0.0mousemm10/Ensembl 935423231053
2.1.0mousemm10/Ensembl 844772928692
1.2.0humanGRCh38/Ensembl 846067533694
1.2.0humanhg19/Ensembl 825790532738
1.2.0mousemm10/Ensembl 844772927998

5.3 UMI计数

  • 这里我们注意一下两点👇

  • 如果两组或更多的reads具有相同的barcodeUMI,但基因注释却不相同,那么reads最多的基因注释用于UMI计数,舍弃其他组。

  • 我们再极端一点,如果两组reads一样的话,这个时候我们可能需要舍弃所有组,因为这个时候基因注释已经不准确了。😤


5.4 细胞过滤

1️⃣ 未经过滤的raw data, feature-barcode matrix会包含很多空的 droplets,在矩阵中并不是0,因为会有来自破碎细胞RNA所以,这种数据我们需要进行过滤,而后再进行分析。🥳

2️⃣ 我们通常需要使用Cell Ranger 2.2Cell Ranger 3.0进行过滤。👇

Knee plots and empty drop cutoffs identified by the Cell Ranger 2.2 and 3.0 filtering algorithms

3️⃣ 举个栗子🌰

肿瘤样本通常包含大型肿瘤细胞与少量的肿瘤浸润淋巴细胞(TIL),如果你对TIL特别感兴趣,那这个时候可能就要用到EmptyDrops的方法来进行过滤了。

其他方法

当你使用Cell Ranger时,你可能会觉得它不够快,这里我们介绍两个速度快准确度高的方法,STARsoloAlevin,这里不做具体介绍了,推荐大家选择STARsolo。🤒


最后祝大家早日不卷!~

点个在看吧各位~ ✐.ɴɪᴄᴇ ᴅᴀʏ 〰

本文由mdnice多平台发布

  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值