TCGA 概述及 Barcode 详解

上期我们介绍了 TCGA 数据库上的癌种、缩写以及中文名称,下面我们来了解 TCGA 所有样本的存储,对于我们数据的筛选至关重要。

01 TCGA 概述

TCGA项目于2006年启动,历经10多年,该项目对全球肿瘤研究产生了深远的影响。泛癌症图谱项目是TCGA项目的一部分,项目对来自11000个病例,33种不同癌症类型进行分析,从而能够告诉我们人体的肿瘤发生、在哪里发生以及为什么发生。

图片

2018年4月5日学术期刊《细胞》及其子刊公布了“癌症和肿瘤基因图谱”(TCGA)的“升级版”——泛癌症图谱(PanCancer Atlas)的研究结果,相关结果以27篇高水平论文呈现, 美国国家卫生研究院资助的科学家团队完成大规模癌症基因组图谱绘制,他们根据基因变异和表达的相似性,提出可以按照分子类型给癌症“归类” 。研究人员认为,这将为癌症诊断和治疗提供新思路。发表在美国《细胞》杂志上的研究,对33种癌症、1万多个肿瘤病例的基因、表观遗传和蛋白质组学变化进行分析,确认约300种导致癌症的基因,并发现已经获批的疗法覆盖了超过半数肿瘤病例的基因突变。这项于2005年启动的“癌症基因组图谱”大型研究发现,起源于同一细胞种类或属于同一系统的不同器官上发生的癌症,彼此之间存在相似性。

癌症基因组图谱(The Cancer Genome Atlas,TCGA) 早已为全世界广为知晓,这项计划于2005年提出,旨在通过基因组学分析技术,将人类全部癌症的基因组变异图谱绘制出来,从而更好地了解癌症发生和发展的机制。尽管如今TCGA项目已经囊括了33种最常见癌症且超过11000个肿瘤样本的测序等工作,然而,它还没有完全结束。

图片

02 TCGA Barcode 详解

TCGA条码是TCGA项目中生物标本数据的主要标识符。从历史上看,BCR 从 TSS 接收参与者样本及其相关元数据。BCR 然后分配人类可读的 ID,称为 TCGA 条形码,代表参与者及其样本的元数据。TCGA 条形码用于将跨越 TCGA 网络的数据联系在一起,因为 ID 唯一标识了由特定数据生成中心(即 GCC、GSC 或 GDAC)生成的特定样本的一组结果。 该条码的组成部分提供了样本的元数据值。目前,BCR 正在为样品分配 TCGA 条形码和 UUID。UUID 是主要标识符。 有关 ID 转换的更多信息,请参阅 UUID。

  • 创建条形码

所有 TCGA 条形码均由 BCR 创建。下图说明了如何在每个步骤处理样本并为其分配 TCGA 条形码。从组织源站点 (TSS) 和参与者(向 TSS 捐赠组织样本)开始,分别分配了 TCGA-02 和 TCGA-02-0001 条码。样品本身也被分配了一个条形码:TCGA-02-0001-01。将样品分成小瓶(例如 TCGA-02-0001-01B),将其分成多个部分(例如 TCGA-02-0001-01B-02)。从每个部分中提取分析物(例如 TCGA-02-0001-01B-02D)并分布在一个或多个板(例如 TCGA-02-0001-01B-02D-0182)中,其中每个孔被识别为等分试样(例如 TCGA-02-0001-01B-02D-0182-06)。这些板被送到 GCC 或 GSC 进行表征和测序。要想充分理解样品barcode的编码规律,就要先从BCR处理样品的过程开始:

图片

  • 读取条形码

TCGA 条形码由一组标识符组成。每个都具体标识一个 TCGA 数据元素。有关元数据标识符如何构成条形码的说明,请参阅下图。等分条码(图中显示了一个示例)包含最多数量的标识符。

图片

图片

举例说明,TCGA-02-0001-01C-01D-0182-01,TCGA命名每个字段的意义,如下:
Project-TSS-Participant-Sample&Vial-Portion&Analyte-Plate-Center

  1. TCGA:Project 项目名称

  2. 02:TSS 组织来源代码

  3. 0001:Participant 科研参与者

  4. 01:Sample 样本号

  5. C:Vial 样本序列中样本的阶数

  6. 01:Portion 顺序中部分的次序

  7. D:Analyte

  8. 0182:Plate 顺序中的板的顺序

  9. 01:Center 测序鉴定

  • Barcode 种类

    条码也可以分层显示,TSS 条码位于树的顶部,等分条码位于底部。父条码在其任何后代条码前面加上前缀,反映了一种生物样本类型从另一种衍生而来。例如,样本是从参与者那里收集的,因此相应的样本条形码包含从中派生的参与者条形码。

图片

使用读取条码中图中的等分条码示例,下表显示了层次结构每个级别的一组可能的相关条码:  

图片

而组织的样本类型,也是数据筛选的关键,至少我们需要知道癌症组织,正常组织以及样本类型,如下:

图片

英文解说详见:TCGA Barcode - GDC Docs (cancer.gov)

下期将介绍如何利用R 包进行 TCGA 数据的读取以及筛选,敬请期待!

关注公众号,免费解答,后期会有免费直播教程,敬请期待!

Reference:

  1. Eleana Parajón,Alexandra Surcel,Douglas N. Robinson,The mechanobiome: a goldmine for cancer therapeutics, American Journal of Physiology-Cell Physiology, 320, 3, (C306-C323), (2021).

  2. Uhlen M, Zhang C, Lee S, et al. A pathology atlas of the human cancer transcriptome. Science. 2017;357(6352):eaan2507.

桓峰基因

生物信息分析,SCI文章撰写及生物信息基础知识学习:R语言学习,perl基础编程,linux系统命令,Python遇见更好的你

37篇原创内容

关注公众号
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值