Monocle操作笔记-2:数据读取和预处理

monocle操作数据格式CellDataSet (CDs),相较于seurat的seurat object,该格式数据更为精简

1. 数据输入输出

首先需要利用3个文件生成CellDataSet格式单细胞表达数据

(1) exprs,基因表达数据,行-基因,列-细胞

monocle支持三种类型的表达数据,UMI counts(推荐)、 TPM/FPKM、log-transformed FPKM/TPMs,需要注意的是在下游分析中monocle会自动进行normalization,所以不要数据normalized data,或提前normalize data。需要针对不同类型的表达数据选择合适的分布negbinomial.size()-UMI,negbinomial(),tobit(),gaussianff()。

(2) phenoData,描述细胞的各种元属性,相当于seurat_obj@meta.data,行-细胞,列-属性

(3) featureData,基因名,行-基因名

(4) 支持直接从seurat或scater读取(输出)数据,但是非常垃圾,试了,根本用不了,还是老老实实手动生成数据吧。

#从seurat object生成CDS
example  ##示例数据为seurat object,已经进行过注释

pd <- new("AnnotatedDataFrame", data = example@meta.data) ##pd, phenoData

gene_annotation=data.frame(gene_short_name = rownames(example[[RNA]]),
                           stringsAsFactors=F)
rownames(gene_annotation)<-gene_annotation$gene_short_name
fd <- new("AnnotatedDataFrame", data = gene_annotation)   ##fd, featureData

HSMM <- newCellDataSet(GetAssayData(example,slot="counts",assay=assay),
                       phenoData = pd,
                       featureData = fd,
                       expressionFamily=negbinomial.size())

如果所分析的数据没有UMI count,而是FPKM/TPM值,这时就需要通过一种叫Census 的方法将这些基因表达值转换为RPC(mRNAs per cell),可极大的提高分析的可行性和结果的准确性。

我没有这种数据,下面是官网代码

pd <- new("AnnotatedDataFrame", data = HSMM_sample_sheet)
fd <- new("AnnotatedDataFrame", data = HSMM_gene_annotation)

# First create a CellDataSet from the relative expression levels
HSMM <- newCellDataSet(as.matrix(HSMM_expr_matrix),
                phenoData = pd,
                featureData = fd,
                lowerDetectionLimit = 0.1,
                expressionFamily = tobit(Lower = 0.1))   ###因为是FPKM/TPM值,所以分布模型是tobit()

# Next, use it to estimate RNA counts
rpc_matrix <- relative2abs(HSMM, method = "num_genes")

# Now, make a new CellDataSet using the RNA counts
HSMM <- newCellDataSet(as(as.matrix(rpc_matrix), "sparseMatrix"),
                phenoData = pd,
                featureData = fd,
                lowerDetectionLimit = 0.5,
                expressionFamily = negbinomial.size())   ###转为了RPS,分布模型改为negbinomial.size()

2. Estimate size factors and dispersions

必须要进行的两步操作,应该是为了评估数据大小和离散程度。命令非常简单,没有太多参数。

size factor与下游分析的数据标准化有关

dispersion与下有分析的差异分析有关

HSMM <- estimateSizeFactors(HSMM)
HSMM <- estimateDispersions(HSMM)
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要安装monocle2,您可以按照以下步骤进行操作: 1. 首先,检查一下可用的monocle版本,可以使用以下命令:conda search monocle 2. 创建一个新的conda环境,可以使用以下命令:conda create -n monocle2 3. 激活monocle2环境,可以使用以下命令:conda activate monocle2 4. 安装monocle 2.18.0版本,可以使用以下命令:conda install bioconductor-monocle==2.18.0 5. 在R中加载monocle库,可以使用以下命令:library(monocle,lib.loc="刚刚创建的monocle2环境所在路径/lib/R/library") 如果您之前没有创建conda环境,可以按照上述步骤创建一个新的环境并安装monocle2。\[1\] 希望这可以帮助您安装monocle2!如果您有任何其他问题,请随时提问。 #### 引用[.reference_title] - *1* *2* [linux安装轨迹分析所需R包monocle2和monocle3的方法](https://blog.csdn.net/x_yAOTU/article/details/126071592)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [Monocle操作笔记-1:软件安装](https://blog.csdn.net/flashan_shensanceng/article/details/121402718)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值