今天是生信星球陪你的第648天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
其实我看单细胞的各种资料,已经断断续续看了有一段时间了。只是没有整理出来,就从今天这篇上路吧~且搜且查,加上问豆豆,开始发布笔记。
1.数据、代码和R包准备
代码:https://satijalab.org/seurat/v3.0/pbmc3k_tutorial.html
数据:https://s3-us-west-2.amazonaws.com/10x.files/samples/cell/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz
rm(list = ls())
options(stringsAsFactors = F)
library(Seurat)
library(dplyr)
2.读取数据
pbmc.data dir("filtered_gene_bc_matrices/hg19/")
## [1] "barcodes.tsv" "genes.tsv" "matrix.mtx"
pbmc project = "pbmc3k",
min.cells = 3,
min.features = 200)
pbmc
## An object of class Seurat
## 13714 features across 2700 samples within 1 assay
## Active assay: RNA (13714 features)
#查看表达矩阵
exp = pbmc[["RNA"]]@counts;dim(exp)
## [1] 13714 2700
exp[30:34,1:4]
## 5 x 4 sparse Matrix of class "dgCMatrix"
## AAACATACAACCAC AAACATTGAGCTAC AAACATTGATCAGC AAACCGTGCTTCCG
## MRPL20 1 . 1 .
## ATAD3C . . . .
## ATAD3B . . . .
## ATAD3A . . . .
## SSU72 . 1 . 3
很多是.,也就是0,换了一种更省空间的表示方式。
3.质控
质控指标:
线粒体基因含量不能过高;
nFeature_RNA 不能过高或过低
为什么?nFeature_RNA是每个细胞中检测到的基因数量。nCount_RNA是细胞内检测到的分子总数。nFeature_RNA过低,表示该细胞可能已死/将死或是空液滴。高nCount_RNA和/或nFeature_RNA表明“细胞”实际上可以是两个或多个细胞。结合线粒体基因count数除去异常值,即可除去大多数双峰/死细胞/空