seurat提取表达矩阵_单细胞数据分析神器——Seurat

近年来,单细胞技术日益火热,并且有着愈演愈烈的趋势。在2015年至2017年,甚至对某细胞群体或组织进行单细胞测序,解析其细胞成分就能发一篇CNS级别的文章。近两三年,单细胞技术从最开始的基因组,转录组测序,发展成现在的单细胞DNA甲基化,单细胞ATAC-seq等等。测序手段也从早期的10X Genomics、 Drop-seq等,发展为现在的多种多样个性化的方法。研究内容更不仅仅局限于解析细胞群体的成分,而是向研究细胞功能和生物学特性发展。今天小编向大家简单一个实用并且易上手的单细胞数据分析软件——Seurat,大家躺在床上为国家做贡献的同时也能get新技能。

9be152612043c452dbf80e876094500e.png

介绍一下今天的主角,Seurat是由New York Genome Center, Satija Lab开发的单细胞数据分析集成软件包。其功能不仅包含基本的数据分析流程,如质控,细胞筛选,细胞类型鉴定,特征基因选择,差异表达分析,数据可视化等等。同时也包括一些高级功能,如时序单细胞数据分析,不同组学单细胞数据整合分析等。今天,小编以官网中提供的单细胞基因表达数据为例,为大家简单介绍一下Seurat软件包中的基础分析流程,希望能够抛砖引玉,祝大家在科研的道路上越走越远。

第一步,数据集导入

在本教程中,我们将分析从10X基因组学免费获得的外周血单个核细胞(PBMC)数据集,来源于Illumina NextSeq 500测得的2700个单细胞转录组数据。首先,我们需要把数据集存储成Seurat可识别的数据格式,

读入的数据可以是一个矩阵,行代表基因,列代表细胞。

library(dplyr)library(Seurat)# Load the PBMC datasetpbmc.data # Initialize the Seurat object with the raw (non-normalized data).pbmc pbmc## An object of class Seurat ## 13714 features across 2700 samples within 1 assay## Active assay: RNA (13714 features)

数据导入成功以后,我们可以看到pbmc对象中包含了一个13714(基因数)X  2700(细胞数)的矩阵,其实在数据导入的时候,数据集中测到的少于200个基因的细胞(min.features = 200),和少于3个细胞覆盖的基因(min.cells = 3),就已经被过滤掉了。

第二步,数据质控

质控的参数主要有两个:1.每个细胞测到的unique feature数目(unique feature代表一个细胞检测到的基因的数目,可以根据数据的质量进行调整)2.每个细胞检测到的线粒体基因的比例,理论上线粒体基因组与核基因组相比,只占很小一部分。所以线粒体基因表达

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值