TCGA 数据分析实战 —— 差异基因

TCGA 数据分析实战 —— 差异基因

转录组分析

上一节,我们简单介绍了 CNV 数据的处理以及突变数据可视化。下面我们简单介绍一下转录组数据分析中必不可少的差异基因分析,以及通路富集分析

1. 数据准备

我们来分析 LGGGBM 之间的转录组差异,首先从 GDC 中获取原位癌 read count 数据

get_count <- function(cancer) {
   
  query <- GDCquery(
    project = cancer,
    data.category = "Transcriptome Profiling", 
    data.type = "Gene Expression Quantification", 
    workflow.type = "STAR - Counts",
    sample.type = c("Primary Tumor"),
  )
  # 选择 20 个样本
  query$results[[1]] <-  query$results[[1]][1:20,]
  GDCdownload(query)
  # 获取 read count
  exp.count <- GDCprepare(
    query,
    summarizedExperiment = TRUE,
  )
  return(exp.count)
}

gbm.exp <- get_count("TCGA-GBM")
lgg.exp <- get_count("TCGA-LGG")

dataPrep_GBM <- TCGAanalyze_Preprocessing(
  object = gbm.exp,
  cor.cut = 0.6,
  datatype = "unstranded"
)

dataPrep_LGG <- TCGAanalyze_Preprocessing(
  object = lgg.exp,
  cor.cut = 0.6,
  datatype = "unstranded"
)
# 合并数据并使用 gcContent 方法进行标准化
dataNorm <- TCGAanalyze_Normalization(
    tabDF = cbind(dataPrep_LGG, dataPrep_GBM),
    geneInfo = TCGAbiolinks::geneInfoHT,
    method = "gcContent"
)
# 分位数过滤
dataFilt <- TCGAanalyze_Filtering(
  tabDF = dataNorm,
  method = "quantile",
  qnt.cut =  0.25
)
# 将数据拆分
dataLGG <- subset(dataFilt, select = gbm.exp$barcode)
dataGBM <- subset(dataFilt, select = lgg.exp$barcode)

2. edgeR

edgeR 可以对 RNA-seqSAGEChIP-Seq 等数据进行差异表达分析,任何从基因组特征上产生的 read count 都可以分析

该算法既可以用于多组实验的统计分析,也可以使用广义线性模型(glm)方法来对多因子实验数据进行统计分析

不仅可以应用在基因水平,也可以在外显子、转录本水平进行差异分析,我们以基因水平为例

使用 TCGAbiolinks 提供的差异表达分析方法,可以很容易地获取差异基因列表

DEGs.edgeR 
### BraTS TCGA LGG 数据集下载与研究资料 #### 获取数据集 为了获取BraTS TCGA LGG(低级别胶质瘤)的数据集,可以访问BraTS官方网站[^3]。此网站提供了详细的注册流程和数据请求指南。通常情况下,研究人员需要填写申请表单并说明使用目的。 对于具体的Python脚本实现自动化的数据下载过程,可参考如下代码片段: ```python from brats import fetch_brats_data # 假设有一个专门处理BraTS数据的库 def download_brats_lgg(): """ 自动化下载BraTS TCGA LGG数据集函数。 """ dataset_type = 'TCGA-LGG' data_path = './data/barts_tgca_lgg' try: files = fetch_brats_data(dataset_type, target_dir=data_path) print(f"成功下载{len(files)}个文件到 {data_path}") except Exception as e: print(f"发生错误: {e}") if __name__ == "__main__": download_brats_lgg() ``` 这段代码假设存在一个名为`brats`的模块用于简化BraTS数据集的操作;实际应用时可能需根据官方API文档调整具体方法调用方式[^5]。 #### 研究资源链接 除了直接从官网下载原始图像外,在线平台如Baidu AI Studio也收集了许多关于脑部肿瘤分割的研究成果和相关竞赛项目[^1]。这些平台上往往会有其他科研工作者分享的经验和技术细节,有助于更深入理解如何利用此类数据开展有效的工作。 此外,《BraTS挑战赛》系列论文也是不可多得的学习材料之一,它们记录了每年比赛期间所采用的方法论进展及其性能评估标准[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

名本无名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值