TCGA数据集介绍及数据下载指南(新手友好篇)

一、TCGA数据集介绍

1.1 数据集介绍

TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的项目, 收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

1.2 File介绍

File目录下包含七类,分别是:

  • Data Category
  • Data Type
  • Experimental Strategy
  • Workflow Type
  • Data Format
  • Platform
  • Access

在这里插入图片描述

1.2.1 Data Category(数据类别)

  • simple nucleotide variation:简单核苷酸编译
  • copy number variation:拷贝数改变
  • transcriptome profiling:转录组分析
  • sequencing reads:测序读取
  • biospecimen:生物样本
  • clinical:临床
  • dna methylation:DNA甲基化
  • structural variation:结构变化

1.2.2 Data Type(数据类型)

  • Annotated Somatic Mutation:注释体细胞突变
  • Raw Simple Somatic Mutation:原始简单体细胞突变
  • Aligned Reads:对其读取
  • Gene Expression Quantification:基因表达量化
  • Masked Annotated Somatic Mutation:掩盖注释体细胞突变
  • Gene Level Copy Number Scores:基因水平拷贝数分数

1.2.3 Experimental Strategy(实验策略)

  • WXS:管道识别全外显子组测序
  • Targeted Sequencing:靶向测序
  • RNA-Seq:RNA测序
  • Genotyping Array:基因分型阵列
  • miRNA-Seq:miRNA测序

1.2.4 Workflow Type(工作流类型)

  • DNAcopy:DNA拷贝
  • GENIE Simple Somatic Mutation:简单体细胞突变
  • GENIE Copy Number Variation:拷贝值变化
  • BCGSC miRNA Profiling:miRNA分析

1.2.5 Data Format(数据格式)

  • txt
  • vcf
  • bam

1.2.6 Platform(平台)

1.2.7 Access

  • controlled:受约束的
  • open:开放的
    controlled数据需要申请账号才可以下载,open数据不需要账号。

1.3 Cases介绍

Cases目录下包含11类,分别是:

  • Case ID
  • Primary Site
  • Program
  • Project
  • Disease Type
  • Gender
  • Age at Diagnosis
  • Vital Status
  • Days to Death
  • Race
  • Ethnicity
    在这里插入图片描述

1.3.1 Case ID(案例编号)

1.3.2 Primary Site(主要站点)

  • bronchus and lung:支气管和肺
  • breast:乳腺
  • hematopoietic and reticuloendothelial systems:造血和网状内皮系统
  • colon:结肠
  • ovary:卵巢

1.3.3 Program(程序)

  • GENIE
  • FM
  • TCGA
  • TARGET

1.3.4 Project(项目)

  • FM-AD
  • GENIE-MSK
  • GENIE-DFCI
  • GENIE-MDA
  • GENIE-JHU

1.3.5 Disease Type(疾病类型)

  • adenomas and adenocarcinomas:腺癌
  • ductal and lobular neoplasms:导管和小叶肿瘤
  • epithelial neoplasms, nos:上皮性肿瘤
  • squamous cell neoplasms:鳞状细胞肿瘤
  • gliomas:神经胶质瘤

1.3.6 Gender(性别)

  • female:女性
  • male:男性
  • unknown:未知
  • not reported:未报导
  • unspecified:不明确

1.3.7 Age at Diagnosis(诊断年龄)

1.3.8 Vital Status(重要状态)

  • not reported:未报导
  • alive:存活
  • dead:死亡
  • unknown:未知

1.3.9 Days to Death(死亡天数)

1.3.10 Race(人种)

  • white:白人
  • not reported:未报导
  • unknown:未知
  • black or african american:黑人或非洲人
  • asian:亚洲人
  • other:其他

1.3.11 Ethnicity(种族)

  • not hispanic or latino:不是西班牙裔或拉丁裔
  • not reported:未报道
  • hispanic or latino:西班牙裔或拉丁裔
  • unknown:未知

二、数据下载指南

2.1 进入官网

官网链接:https://portal.gdc.cancer.gov/

在这里插入图片描述

2.2 点击进入“Repository”

进入“Repository”后先看右上角“Cart”处是否为“0”,不为零的话要先清除之前下载的数据,清除方法是选择“Cart”,然后点击右下角的“Remove From Cart”。
在这里插入图片描述

2.3 点击“Repository”

点击“Repository”,选择需要下载的样品信息“Cases”和需要下载的文件“Files”。
在这里插入图片描述
【注】:在下面的部分会对FilesCases进行介绍。

2.4 下载临床信息

(这里以结肠癌coion为例)

在这里插入图片描述
在下拉框中选在需要下载的内容:
在这里插入图片描述
然后选择需要下载的文件“Files”,这里也可以再下拉框中根据自己需要的格式进行下载
在这里插入图片描述

2.5 将文件添加到“Cart”

点击“Add All Files to Cart”
在这里插入图片描述

2.6 进入“Cart”页面

进入“Cart”页面,选择要下载的格式进行下载
在这里插入图片描述

2.7 进行下载

一个是「Manifest」(一个txt文本,是数据下载入口,并不是数据本身);
一个是左边的「Metadata」(这个下载之后是个json文件,是为了之后进行数据清洗作准备的);

当然也可以直接从网站上直接下载数据,但这种方式的弊端就是不稳定,数据中断时无法续传;
在这里插入图片描述
可以点击Download——>Cart本地下载,也可以下载Manifest文件后用官方下载工具下载,如果数据是controlled并且用官方下载工具下载,需要下载token文件作为身份验证,这里不进行详细介绍。【说明:本地下载国内可能无法下载】

把文件下载到本地后,是这个样子:
在这里插入图片描述

三、下载数据

官网提供的下载工具Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool,选择相应版本即可下载。在这里插入图片描述
左侧为初始界面,右侧为UI可视化界面。

UI初始化界面如下:
在这里插入图片描述
选择manifest文件,点击下载即可开始下载。

UI可视化界面下载时如下:
在这里插入图片描述

下载完成后界面大致如下:
在这里插入图片描述

四、数据处理

4.1 样本名称转化为TCGA样本编号

数据下载完成后,还是一堆文件夹,接下来需要对数据进行处理。
json文件打开后,会发现每个样本名称跟它的TCGA样本编号被一个大括号所包含,形成一一对应的关系;
在这里插入图片描述
这里就需要利用python脚本把样本名与TCGA样本编号建立一个字典,然后进行逐一修改,代码如下:

import os
import json

#打开json文件夹;
file = open('E:/Wendy/Desktop/TEST/metadata.cart.2021-09-17.json', encoding='utf-8')
#读取json文件夹;
json_precess = json.loads(str(file.read()))
#创建空字典;
dict ={}
for i in json_precess:
    print(i['file_name'])
    print(i['associated_entities'][0]['entity_submitter_id'])
    dict[str(i['file_name']).strip('.gz')] =i['associated_entities'][0]['entity_submitter_id']
print(dict)


#mainfest文件路径;
path ='E:/Wendy/Desktop/TEST/test'
filelist = os.listdir(path)#mainfest子路径下的所有文件列表;
for file_one in filelist:
    file = path + '/' +file_one
    print(file)
    list = os.listdir(file)[0]
    print(list)
    if '.gz' in list:
        olddir = file +'/' +list#原来文件名
        newdir = file + '/' + dict[list.split('.gz')[0]] +'.gz'#新的文件名
        os.rename(olddir,newdir)#重新命名
    # olddir = os.path.join(path,file_one)
    # print(olddir)
    # filename =os.path.splitext(file_one)[0]
    # newdir = os.path.join(path,dict[file_one])
    # os.rename(olddir,newdir)名

4.2 数据合并

参考链接:
【1】http://www.yingbio.com/article-35507-199717.html
【2】https://blog.csdn.net/qq_35203425/article/details/80882988
【3】https://blog.csdn.net/weixin_42512684/article/details/89415482
【4】https://blog.csdn.net/weixin_42512684/article/details/90172633

  • 59
    点赞
  • 326
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 15
    评论
以下是TCGA数据下载及处理的R语言脚本: 首先,需要安装以下R包:TCGAbiolinks,tidyverse,ggplot2,survival,survminer。 ```R # 安装TCGAbiolinks包 if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("TCGAbiolinks") # 安装其他必要的包 install.packages(c("tidyverse", "ggplot2", "survival", "survminer")) ``` 接下来,下载TCGA数据。例如,我们下载肺癌(LUSC)的RNA-seq和临床数据。 ```R library(TCGAbiolinks) # Set working directory setwd("your_working_directory") # Download RNA-seq data query <- GDCquery(project = "TCGA-LUSC", data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "HTSeq - FPKM", legacy = TRUE, platform = "Illumina HiSeq", file.type = "results", experimental.strategy = "RNA-Seq") GDCdownload(query) # Download clinical data query <- GDCquery(project = "TCGA-LUSC", data.category = "Clinical", file.type = "xml") GDCdownload(query) ``` 接下来,我们可以将下载的RNA-seq数据导入到R中,并进行预处理。例如,我们可以通过log2转换标准化数据并删除低表达基因。 ```R # Load RNA-seq data LUSC_rnaseq <- GDCprepare(query, save = TRUE, save.filename = "LUSC_rnaseq") # Log2 transformation and normalization LUSC_rnaseq$log2 <- log2(LUSC_rnaseq$counts+1) LUSC_rnaseq_norm <- normalizeBetweenArrays(LUSC_rnaseq$log2, method = "quantile") # Remove low expressed genes LUSC_rnaseq_norm_filter <- LUSC_rnaseq_norm[rowSums(LUSC_rnaseq_norm > 1) >= 20,] ``` 最后,我们可以使用survival和survminer包对临床数据进行生存分析和可视化。 ```R # Load clinical data LUSC_clinical <- GDCprepare_clinic(query, clinical.info = "patient") # Merge RNA-seq and clinical data LUSC_data <- merge(LUSC_rnaseq_norm_filter, LUSC_clinical, by = "bcr_patient_barcode") # Survival analysis fit <- survfit(Surv(time, vital_status) ~ 1, data = LUSC_data) ggsurvplot(fit, data = LUSC_data, pval = TRUE, conf.int = TRUE) # Cox proportional hazards model model <- coxph(Surv(time, vital_status) ~ gene1 + gene2 + gene3, data = LUSC_data) summary(model) ```
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wendy_ya

您的鼓励将是我创作的最大动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值