tcga压缩包提取合并_单基因生信分析流程(1)一文解决TCGA数据下载整理问题

本文介绍了如何进行TCGA数据的下载和整理,特别是生存数据和表达量数据,包括生存数据的提取、表达矩阵的获取、TPM计算、mRNA表达矩阵筛选以及去除癌旁和二次测序样本,为单基因生信分析提供详细流程。
摘要由CSDN通过智能技术生成

文章发布于简书博客:柳叶刀与小鼠标(单基因生信分析流程(1)一文解决TCGA数据下载整理问题)

原因

在平常科研工作中,经常有师兄师姐师弟师妹问我:我现在有一个单基因,我该怎么开展生信研究?出现这个问题的原因是:(1)目前生信研究火热也逐渐受到认可(2)许多医学生在开展实验研究的同时,如果结合生信,则自己的结论和工作量更加吸引到编辑和手审稿人(3)现有的geo、TCGA或者其他免费公开数据库确实是很多研究者的第一选择。

思路

(1)下载整理临床数据、TCGA表达量
(2)单基因的差异分析或者相关分析
(3)单基因的生存分析与临床参数相关分析
(4)单基因的下游通路分析包括GO、KEGG或者通过GSEA

第一节(TCGA生存数据下载)

本节主要下载透明细胞癌KIRC的生存数据
  • 加载R包
library(TCGAbiolinks)
library(SummarizedExperiment)
library(dplyr)
library(DT)
rm(list=ls())

setwd('D:trainsingle_gene')
  • 下载生存数据
## ----results='hide', echo=TRUE, message=FALSE, warning=FALSE-------------
clinical <- GDCquery_clinic(project = "TCGA-KIRC", type = "clinical")

## ----echo=TRUE, message=FALSE, warning=FALSE-----------------------------
datatable(clinical, filter = 'top', 
          options = list(scrollX = TRUE, keys = TRUE, pageLength = 5),  
          rownames = FALSE)

ba00de465329777d38302e7f585fd8e4.png

我们可以看到从上到下共计有537个样本,而且该临床数据有37列。当然我们这里主要关注生存相关的信息比如生存时间和生存状态。

  • 整理TCGA肾透明细胞癌的生存时间和生存状态
rm(list=ls())
query <- GDCquery(project = "TCGA-KIRC", 
                  da
  • 6
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值