多组学分析MOFA用法

 多组学分析是结合多种组学,如转录组、基因组等,构建基因表达网络,深层次理解分子的调控和因果关系,使用无监督的机器学习方法,并且可以设置使用GPU进行训练

本文是对“Drug-perturbation-based stratification of blood cancer”的复现,旨在说明多组学分析的进行方法

CLL:慢性淋巴细胞白血病

1.1 载入包和数据

#if (!require("BiocManager", quietly = TRUE))
#install.packages("BiocManager")
#BiocManager::install("MOFA2")
#BiocManager::install("MOFAdata")
library(MOFA2)
library(MOFAdata)
library(data.table)
library(ggplot2)
library(tidyverse)
# Load the example data
utils::data("CLL_data")   
# Create the MOFA object
MOFAobject <- create_mofa(CLL_data)
plot_data_overview(MOFAobject)
CLL_metadata <- fread("ftp://ftp.ebi.ac.uk/pub/databases/mofa/cll_vignette/sample_metadata.txt")

cll_data数据示例

Drugs:药物反应的生存率值

methylation:甲基化的M值,M值是一种衡量CpG位点甲基化水平的指标,计算公式为log2(M/U),其中M代表甲基化信号强度,U代表非甲基化信号强度。甲基化信号强度是一种衡量DNA甲基化水平的方法,通过使用特定的探针或引物来检测甲基化的CpG位点的荧光信号的强度来计算的。甲基化信号强度可以反映甲基化的程度和分布,适用于样本内的特征分析。

mRNA: 标准化的表达值

Mutations: 突变状态

cll_metadata

TTT:Time to Treatment,指从诊断到开始治疗的时间

TTD: Time to Death,指从诊断到死亡的时间

trisomy12: 12号染色体三体,trisomy12是CLL/SLL中最常见的染色体异常之一,约占16%的病例。通常表现为CD38阳性、ZAP70阳性、IgHV未突变、CD49d高表达等特征。

1.2模型参数设置

data_opts <- get_default_data_options(MOFAobject)
model_opts <- get_default_model_options(MOFAobject)
model_opts$num_factors <- 15
train_opts <- get_default_training_options(MOFAobject)
train_opts$convergence_mode <- "slow"
train_opts$seed <- 42


MOFAobject <- prepare_mofa(MOFAobject,
                           data_options = data_opts,
                           model_options = model_opts,
                           training_options = train_opts
)

分为model、train分别设置参数,一般使用默认值即可

1.3 运行模型

# Run the model
outfile = file.path(getwd(),"model.hdf5")
MOFAobject.trained <- run_mofa(MOFAobject, outfile)
#MOFAobject <- readRDS(url("http://ftp.ebi.ac.uk/pub/databases/mofa/cll_vignette/MOFA2_CLL.rds"))

MOFAobject.trained

 exectations包含factor和weight

factor是对变量的不同线性组合,共分成15个,是对患者的划分。

1.4 可视化分析

# Plot the factors
-
plot_factor_cor(MOFAobject.trained)
plot_data_scatter(MOFAobject.trained, 
                  view = "mRNA",
                  factor = 1,  
                  features = 4,
                  sign = "positive",
                  color_by = "IGHV"
) + labs(y="RNA expression")

我们有大量具有较大正权重和负权重的基因。 正值较大的基因在有 IGHV 突变的样本中表达较多,而负值较大的基因在没有 IGHV 突变的样本中表达较多。 我们来验证一下。 函数plot_data_scatter 生成具有最大正权重的前 4 个基因的因子 1 值(x 轴)与表达值(y 轴)的散点图。 样品按 IGHV 状态着色:

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值