在TCGA上下载数据并且进行处理

  1. 浏览器搜索TCGA GDC进入网站
  2. 在TCGA数据库主页选择“Repository”模式
  3. 根据所需要的选项在侧边栏选择数据
    先在cases中选择数据
    再选择一些数据的格式
  4. 清空购物车!!第一次登陆可忽略在这里插入图片描述
  5. 将刚刚选择好的数据加入购物车,并且在购物车里下载Metadata和Cart数据,下载到同一个文件夹下。
    加入购物车
    数据下载,cart数据下载时间可能比较久
  6. 使用R语言脚本对数据进行处理,将其提取为gene symbol和样本的数据,推荐看一下该博主处理数据!!真的非常详细!他R语言脚本在这个链接
### 使用 R 语言下载和预处理 TCGA 数据的方法 #### 安装必要的包 为了能够顺利地访问和操作 TCGA 数据,在 R 中可以利用 `BiocManager` 来安装一些专门用于生物信息学研究的软件包。 ```r if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install(c("TCGAbiolinks", "maftools")) ``` #### 加载所需的库并设置工作环境 加载上述已安装好的工具箱,并初始化会话参数以便后续的数据获取与分析过程更加顺畅[^1]。 ```r library(TCGAbiolinks) library(maftools) options(stringsAsFactors = FALSE) set.seed(123456789L) # 设置随机种子以保证实验可重复性 ``` #### 构建查询条件 定义好要检索的具体癌症类型以及感兴趣的基因表达谱或其他特征,这里以乳腺浸润癌 (BRCA) 的体细胞突变情况为例说明。 ```r query <- GDCquery( project = "TCGA-BRCA", data.category = "Simple Nucleotide Variation", workflow.type = "MAF" ) ``` #### 执行数据请求 提交构建完成后的查询对象给 Genomic Data Commons (GDC),等待服务器返回符合条件的结果列表。 ```r GDCdownload(query) files <- GDCprepare(query) mafFile <- files$fileName[1] ``` #### 预处理 MAF 文件 读取刚刚下载下来的变异注释文件(Mutation Annotation Format, MAF), 并对其进行初步清理转换成适合进一步统计分析的形式。 ```r mafData <- read.maf(maf = mafFile) summary(mafData@data[, c('Hugo_Symbol', 'Variant_Classification')]) head(topOncogenicMutations(mafData)) ``` 通过以上步骤已经成功实现了从网络上抓取公共数据库中的肿瘤样本资料到本地计算机,并完成了基本的质量控制措施。接下来可以根据具体的研究目的继续深入挖掘这些珍贵的信息资源了[^2]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值