The cancer genome atlas(TCGA)

The cancer genome atlas(TCGA)数据库储存20多种癌症的基因组数据,作为生信喵少不了要下载上面的数据来分析。写篇文章介绍一下,也加深自己的印象。

TCGA收录的了很全面的癌症基因组数据,包括突变,拷贝数变异,mRNA表达,miRNA表达,甲基化数据等

这些数据可分为三个级别:

level-1: 原始的测序数据(fasta,fastq等)
level-2:比对好的bam文件
level-3:为经过处理及标准化的数据

(其中level1/2为controlled-access,level-3有部分是controlled-access,这一类型的需要向TCGA申请使用权限)
level-1/2 比较糙,文件较大,若要下载需要使用官方提供的小工具:GDC Data Transfer Tool, 需要自己重新比对来call mutation, 或者提取count data做差异表达分析(懒人表示不怎么用)


最常用的为level3数据,文件较小,直接在网页上下载就可以。
目前主要有两个网站可以下载TCGA level-3的数据:

  • TCGA官网的data-portal: portal.gdc.cancer.gov
    优点:数据最全,更新最快
    缺点:每个样本的数据都单独储存在一个文件中,如果要下载RNA表达量数据的话,可能同一种癌症需要下载好几百个文件,并且需要排队下载,有时候很慢很慢很慢

  • Firehose服务器:gdac.broadinstitute.org
    优点:这里的数据也来源于 portal.gdc.cancer.gov,经过了简单的合并,将每种癌症相同类型的数据合并到了一个文件中(例如443个胃癌样本的RNA表达量数据都合并到了一个文件中,非常适合用R进行后续的分析)


level-3的数据是仍需要一定的分析能力来提取感兴趣的信息,

如果你仅仅需要看感兴趣的基因在某种癌症中的突变谱,表达量,或者甲基化情况,那么以下三个在线可视化网站可以说是非常亲民了:

  • c-Bioportal: www.cbioportal.org
    整合和简化了包括TCGA,ICGC以及GEO等多个癌症基因组数据库的内容,提供友好可视化的界面,可供下载。
    主要展示基因的somatic 突变谱,拷贝数变化,mRNA&miRNA表达量变化,DNA甲基化以及蛋白质表达的情况,并结合患者的临床资料,展示了KM生存曲线。

  • OncoLnc: www.oncolnc.org
    这是一个整合了TCGA的各种RNA数据和患者临床数据,提供生存分析的网站,灰常简单好用。

  • MEXPRESS:mexpress.be/about
    整合了TCGA中的DNA甲基化,表达量及临床数据,主要用来探索甲基化,基因表达和临床表型之间的关联,界面也很友好。

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值