现在已经打不开之前的1.0版本的官网了,所以记录一下2.0版本的操作过程
1、选择自己想下载的组织
选择yes,即可跳转到这个组织的内容下:
2、选择上面的Repository,进一步筛选需要的文件格式
一般选择这个Tissue Slide就够了
3、选择自己需要的数据,加入购物车
4、在购物车选择下载Cart,就是组织切片图像了
还有一些其他格式的数据可以下载,在右边的Download Associated Data里面,按需选择
如果使用GDC Data Transfer Tool,则需要选择Manifest
5、建议使用 GDC Data Transfer Tool 批量下载数据
GDC Data Transfer Tool 下载地址:
GDC Data Transfer Tool | NCI Genomic Data Commons
可以下载UI界面的,操作起来比较简单,有官方文档供参考数据传输工具 UI 文档 - GDC Docs
在使用过程中,可能会遇到下载失败的情况,请参考用GDC Data Transfer Tool下载TCGA数据集Failed问题_gdc client下载tcga cart数据显示部分下载是什么原因-CSDN博客
亲测好用!
更新第二种下载数据的方式!
传到服务器上跑,嘎嘎快
1、在GDC Data Transfer Tool中下载Ubuntu版本的GDC Data Transfer Tool Client
2、上传到服务器中,在终端进行解压
unzip XXX.zip
最终会解压出一个gdc-client的文件夹
3、在TCGA官网下载自己需要的数据的Manifest文件
4、执行命令
./gdc-client download -m 所需数据的Manifest文件 -d 数据保存路径
有个疑问
请问我应该如何获取每个样本对应的标签呢?他们所属的癌症类别是什么?
2025/4/28
时隔四个月,又要用到这个数据库了,再记录一下最近的新发现
在首页的projects中可以选择Data Category,里面的clinical是临床信息,包括病人的一般情况、诊治情况、TNM分期、肿瘤病理、生存情况等。
感觉很有可能包含患者切片的MSI状态以及肿瘤分期等信息!
选择TCGA数据库以及自己需要的研究部位,可以看到:
其中,Disease Type是疾病类型/肿瘤类型,可以看到COAD细分为四种;Primary Site是肿瘤的原发部位,表示肿瘤是在什么部位发现的。一般选择默认配置就可以,但是也可以进一步筛选
好吧,我还是没找到MSI状态在哪里,打算试试R语言了