TCGA
TCGA 数据库是目前最大的癌症基因信息数据库,TCGA的全面不仅仅体现在众多癌型上,还体现在多组学数据,包括基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP。
数据下载
肿瘤研究经常需要下载相关数据,目前可以通过官网(http://www.cbioportal.org/)直接下载,或者xenabrowser 下载。
xena下载比较简单,选择需要研究的癌症种类,直接下载所需的文件就可以了。
https://xenabrowser.net/datapages/?hub=https://tcga.xenahubs.net:443
官网下载稍微复杂些,
1.进入官网 https://portal.gdc.cancer.gov/repository,点击 repository
2.File 里面选择数据类型,文件类型等
3.Case 里面选择肿瘤类型,项目等
4.将挑选的文件加入Cart
5.下载manifest,或者直接下载cart,数据量较小时可行
6.安装gdc-client,linux下建议使用conda 安装, 然后下载所需文件
./conda install gdc-client
./gdc-client download -m gdc_manifest.2020-05-20.txt