tcga数据下载_GEO、TCGA&ICGC测序数据下载?

目前可获取的开源高通量数据越来越多, 很多时候我们并不需要自己做实验, 可以直接通过分析别人上传的测序数据而获得想要的结果。那么今天就给大家分享三种优雅提取测序数据的方法,以飨读者。

GEO测序数据下载

GEO数据库是NCBI网站下的子数据库,主要收录基于芯片和测序技术的数据,来源于全球众多研究者的上传数据。

v2-6a405da6c0c53edd44a9b8896fba2b13_b.jpg

GEO数据库数据的存储有5种主要组织形式(Data organization),包括GPL、GSM、GSE、GDS、GEO profiles。

其中前三种属于上传者提供的原始数据,属于original records;后两种属于GEO工作人员挑选一部分数据分析整理后的数据,属于curated records。

v2-a97e4b268db15d1c47af43bf7e64dfb4_b.jpg

v2-e8ff518eaadaf67a5e47a365bebccff6_b.jpg

GEO数据存储的主要格式有4种:SOFT格式、MINiML格式、Series Matrix files和Supplementary files。

v2-acb8e2e841b96937075b91a70ea9feb0_b.jpg

GPL数据主要有四种对应的存储格式,最常用的是annotation 注释表格文件,将芯片探针名转换为基因名时需要用到这个文件。

v2-b457c56b4f1e921dd266a4078c3645ba_b.jpg

GSM数据对应的是一个单独的压缩文件,列在补充文件条目下。记录了该样本的描述信息和原始数据(raw data),根据产生数据平台的不同,原始数据的文件格式有所不同。

v2-dba321dab87641ac195b4eec5beaec04_b.jpg

GSE数据的存储格式,这是我们最常用到的数据类型。Series matrix文件包含该GSE的样本表达矩阵及简要样本、平台信息;另两个文件则是SOFT格式和MINiML格式,包含该GSE所涉及的所有样本及平台数据。

v2-72d4122fd2ae18089818741b9544d98c_b.jpg

GDS数据的格式一般为soft格式,分为soft和full.soft文件,其中full.soft文件中增加了该GDS对应平台的最新基因注释信息。GDS页面同时还整合了该GDS对应的GSE和GPL annotation数据下载链接。

v2-62429a906c09044e3165bb7750ac7054_b.jpg

GEO profile文件的存储形式。下载的文件命名为profile_data.txt,没有特定的编号,文件内包含了所查询基因的信息以及在各个样本中的表达值数据,推荐用Excel打开这个文本文件。

v2-3e7ccacf2f7a1323992057e4a99292d1_b.jpg

GEO数据的下载主要有两种方式:通过相应网页的下载链接直接点击下载,或者根据GEO数据在FTP站点中的存储文件命名规则,构建ftp链接来下载文件。

前面的方式更直观、不易出错;而构建链接比较适合批量下载,更适合软件程序下载。

v2-42ea9bda062b14df57c774eeb392086a_b.jpg

v2-de722e2dc902caaa6244e89474aee960_b.jpg

TCGA测序数据下载

TCGA(癌症基因组图谱计划)启动于2005年,2013年12月完成了33个癌症类型、共计2万多例样本收集;2014年6月完成了所有样本基因组数据采集。

TCGA项目数据量庞大,有超过2.5PB的基因组、表观基因组、转录组和蛋白质组数据,从基因、分子水平揭示了癌症的特征,提高了对癌症的诊疗和预防水平。

v2-b00fdc24e051bd2bb767df4f91be4102_b.jpg

v2-62d87b2348e62ce77a63740a0b69c11c_b.jpg

TCGA数据的下载有很多种方式,包括官网、替代网站、R包下载等等。从官网直接下载数据,主要有两种方式:通过网页界面在购物车中直接下载,或者借助官方小工具gdc-client下载。

1)GDC网站界面搜索

v2-e4f6eec1c0454007f07a9db40ae317e4_b.jpg

2)直接网页下载

v2-963097440401b44b2128ab72448aad97_b.jpg

3)GDC-Client工具下载

v2-3fe63f201443f64948928eda5da57132_b.jpg

v2-fd1cff4a04b63ca5ed840d96e4fddb99_b.jpg

ICGC测序数据下载

ICGC(国际肿瘤基因组协会)成立于2007年,旨在开展和协调全球的众多肿瘤研究项目,揭示肿瘤的基因组变化,从而改善癌症的治疗和预防。

ICGC确立了3个主要目标任务:

1)计划收集25000例未经治疗的原发肿瘤基因组学数据;

2)开展全基因组泛癌分析计划(PCAWG),主要是对产生的数据进行泛癌分析;

3)ICGC-ARGO计划(加速基因组肿瘤学研究计划),计划纳入10万例有高质量临床数据的肿瘤患者进行分析,期望解决战胜肿瘤的关键性问题。

v2-34cb7e404995c49c0f03dfdfda2deffa_b.jpg

v2-643daee9625771c9a8beea27d5aa74c1_b.jpg

ICGC中原始数据下载是受限的,原始数据存储在Data repository,其中开放下载的文件数不到1/10,且仅为生物样本、临床信息。

DCC Data releases 中的数据均可以下载,为经过整理的数据,可以下载的数据主要来源于该部分。

Cancer projects中的检索到的数据也可以下载,基本和DCC Data releases 中的相应数据一致。

v2-c7e1ab83053104862895c7766a65b6da_b.jpg

本文首发于“ 酸谈”微信公众号

转载请注明:解螺旋·临床医生科研成长平台。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值