TCGA 数据分析实战 —— 差异甲基化区域模体分析

最新推荐文章于 2024-10-09 09:23:06 发布

名本无名

最新推荐文章于 2024-10-09 09:23:06 发布

阅读量1.7k

点赞数 8

分类专栏：数据分析实战 R 生信数据库文章标签：数据分析数据挖掘

本文链接：https://blog.csdn.net/dxs18459111694/article/details/139311189

版权

TCGA 数据分析实战 —— 差异甲基化区域模体分析

文章目录

TCGA 数据分析实战 —— 差异甲基化区域模体分析

前言

DNA 甲基化在许多细胞进程中扮演重要的角色，例如胚胎发育、基因印迹、X 染色体失活和维持染色体稳定性。

在哺乳动物中，DNA 甲基化很少见，其产生位置分布在整个基因组中的确定的 CpG 序列中，但是却很少在 CpG 岛上发生甲基化。

CpG 岛（CGI）是富含 GC 碱基的短间隔 DNA 序列。这些 CpG 岛通常位于转录起始位置，它们的甲基化会导致基因沉默。

DNA 甲基化会抑制转录，因此，对 DNA 甲基化的研究对于理解癌症中调控基因网络至关重要。所以，差异甲基化区域（DMR）的检测有助于我们研究调控基因网路。

差异甲基化分析

样本甲基化均值

我们首先对 DNA 甲基化数据进行预处理，450k 平台的 DNA 甲基化数据有三种探针：

cg：CpG 位点
ch：非 CpG 位点
rs：SNP 芯片

最后一种探针可用于识别和跟踪样本，应该在差异甲基化分析中被排除，所以要删除 rs 探针。同时为了消除性别的影响，X、Y 染色体也应该排除在外。最后，去除包含 NA 值的探针。

在本示例中，我们分析的是非小细胞肺癌的两个亚型：

肺腺癌：LUAD
肺鳞癌：LUSC

library(TCGAbiolinks)
library(SummarizedExperiment)
library(tidyverse)

#------------------------------------
# 获取 DNA 同时检测甲基化和表达的样本
#------------------------------------
# 肺腺癌和肺鳞癌
luad.samples <- matchedMetExp("TCGA-LUAD", n = 10)
lusc.samples <- matchedMetExp("TCGA-LUSC", n = 10)
samples <- c(luad.samples, lusc.samples)

query <- GDCquery(
    project = c("TCGA-LUAD", "TCGA-LUSC"),
    data.category = "DNA Methylation", 
    data.type = "Methylation Beta Value",
    platform = "Illumina Human Methylation 450",
    barcode = samples
)
GDCdownload(query)
met <- GDCprepare(query, save = FALSE)

# 删除包含 NA 值的探针
met <- subset(met,subset = (rowSums(is.na(assay(met))) == 0))
# 去除重复样本
met <- met[, substr(colnames(met), 14, 16) !=