TCGA学习1--下载level3 level4数据

1、使用firehose_get   下载level3 level4数据

https://confluence.broadinstitute.org/display/GDAC/Download

example:

  • firehose_get analyses latest
    Retrieves: every result, for every disease cohort, in the latest GDAC Firehose run
  • firehose_get -tasks mutsig gistic  analyses latest brca ucec
    Retrieves: only Gistic and MutSig results for breast and uterine cancer
  • firehose_get -tasks mut analyses latest prad
    Retrieves: all results which have "mut" in their name, such as MutSig, Mutation_Assessor, and any correlations to mutation data

2、R包

https://github.com/mariodeng/FirebrowseR

devtools::install_github("mariodeng/FirebrowseR")

3、GDC网站

比较麻烦

4、cbioportal

一般我只看网页版

5、其他等等

先学学firehose

首先,分析TCGA-COAD(结肠直肠癌)数据集中的特定基因,你需要遵循以下步骤来完成这个任务。假设你已经安装了必要的R包,如`TCGAbiolinks`、`SomaticSignatures`(用于处理临床和基因表达数据)、`dplyr`、`tidyr`等。 以下是R代码示例,演示如何下载TCGA COAD数据,选择特定基因,计算中位数,并将样本分为高表达和低表达组: ```R # 首先安装必要的包,如果尚未安装 if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install(c("TCGAbiolinks", "SomaticSignatures")) # 加载所需的库 library(TCGAbiolinks) library(SomaticSignatures) library(dplyr) library(tidyr) # 设置工作路径 working_dir <- "your_working_directory" # 替换为你的工作目录 # 登录到TCGA门户(如果你还没有登录) email <- "your_email@example.com" password <- "your_password" # 下载COAD数据 coad_data <- TCGAquery(project = "COAD", data.category = c("Gene Expression Quantification", "Clinical"), assay = "RNA-seq", use.rsem = TRUE) # 提取基因表达数据(例如,对基因"GENE_NAME"进行操作,这里代换成你要分析的基因名) gene_name <- "GENE_NAME" expression_matrix <- coad_data[[paste0(gene_name, "_normalized")]] # 计算中位数表达值 median_expression <- expression_matrix %>% rowMeans() %>% median() # 定义高表达和低表达阈值 high_expr_threshold <- median_expression * 1.5 # 可视情况调整这个比例 # 分割为高低表达组 expression_levels <- ifelse(expression_matrix[, gene_name] > high_expr_threshold, "High", "Low") # 结合临床信息,保存结果 clinical_data <- getTCGAdata(project = "COAD", category = "Clinical", subset.by = "sample_submitter_id") coad_analysis <- bind_cols(clinical_data, tibble(sample = rownames(expression_matrix), expression_level = expression_levels)) # 保存结果 write.csv(coad_analysis, file = paste0(working_dir, "/", gene_name, "_expression_summary_coad.csv"), row.names = FALSE) ``` **
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值