TCGA 数据分析实战 —— 差异甲基化区域模体分析
前言
DNA
甲基化在许多细胞进程中扮演重要的角色,例如胚胎发育、基因印迹、X
染色体失活和维持染色体稳定性。
在哺乳动物中,DNA
甲基化很少见,其产生位置分布在整个基因组中的确定的 CpG
序列中,但是却很少在 CpG
岛上发生甲基化。
CpG
岛(CGI
)是富含 GC
碱基的短间隔 DNA
序列。这些 CpG
岛通常位于转录起始位置,它们的甲基化会导致基因沉默。
DNA
甲基化会抑制转录,因此,对 DNA
甲基化的研究对于理解癌症中调控基因网络至关重要。所以,差异甲基化区域(DMR
)的检测有助于我们研究调控基因网路。
差异甲基化分析
样本甲基化均值
我们首先对 DNA
甲基化数据进行预处理,450k
平台的 DNA
甲基化数据有三种探针:
cg
:CpG
位点ch
:非CpG
位点rs
:SNP
芯片
最后一种探针可用于识别和跟踪样本,应该在差异甲基化分析中被排除,所以要删除 rs
探针。同时为了消除性别的影响,X
、Y
染色体也应该排除在外。最后,去除包含 NA
值的探针。
在本示例中,我们分析的是非小细胞肺癌的两个亚型:
- 肺腺癌:
LUAD
- 肺鳞癌:
LUSC
library(TCGAbiolinks)
library(SummarizedExperiment)
library(tidyverse)
#------------------------------------
# 获取 DNA 同时检测甲基化和表达的样本
#------------------------------------
# 肺腺癌和肺鳞癌
luad.samples <- matchedMetExp("TCGA-LUAD", n = 10)
lusc.samples <- matchedMetExp("TCGA-LUSC", n = 10)
samples <- c(luad.samples, lusc.samples)
query <- GDCquery(
project = c("TCGA-LUAD", "TCGA-LUSC"),
data.category = "DNA Methylation",
data.type = "Methylation Beta Value",
platform = "Illumina Human Methylation 450",
barcode = samples
)
GDCdownload(query)
met <- GDCprepare(query, save = FALSE)
# 删除包含 NA 值的探针
met <- subset(met,subset = (rowSums(is.na(assay(met))) == 0))
# 去除重复样本
met <- met[, substr(colnames(met), 14, 16) !=