datatable使用_使用TCGAbiolinks下载TCGA的数据

欢迎关注”生信修炼手册”!

TCGAbiolinks是一个分析处理TCGA数据的R包,通过GDC API来查询和下载TCGA的数据,同时提供了差异分析,生存分析,富集分析等常见的分析功能,网址如下

http://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html

这个R包的基本用法如下

1. Query

和在线查询类似,只不过是将网页上的各种可选的属性变成了对应的参数,基本用法如下所示

cd01d83facb1f384027cc030c39ed8ce.png

project为核心进行查询, 其他参数用来对数据进行过滤,常用的有以下几个参数

  1. datga.category

  2. data.type

  3. workflow.type

  4. experimental.strategy

  5. platform

  6. access

以上参数和和网页上的的各项选择菜单相对应,示意如下

57722f4c792a44b2e478c45cc37a6cff.png

除此之外,还有几个重要参数,legacy参数的默认值为FALSE,表示从harmonized database进行查询,TRUE表示从 GDC legacy archive进行查询;barcode参数用于选择其中部分样本的数据。

查询结果的基本单位为Files, 可以通过以下代码进行查看

datatable(getResults(query))

结果是一个html的表格,通过网页进行查看,每行代表一个表格,示意如下

9ffbdfe9caf5190bc4aeb5f47227b95b.png

2. Download

除了查看检索结果外,还可以下载检索结果,用法如下

22f958ee56900ab11873cfdf42b812bf.png

这里分成了两个步骤,第一步从GDC下载原始数据,可以使用API或者gdc-clinet进行下载, API的速度相对快一点;第二步对原始数据的结果进行整理,从GDC下载的原始数据是每个文件单独分开的,需要先对结果进行整理,才可以用于后续分析。以表达谱数据为例,需要进行样本的合并,样本ID的转换等,所有这些都可以通过GDCprepare完成。

整理好的结果存放在data对象中,  样本的信息可以通过如下方式进行查看

ebc87bdbffdcb2ab84cbb36193910a2d.png

结果示意如下

1d79769d3c704720960a5ea73612647f.png

表达量矩阵的信息查看方式如下

319747e3abab1f230b8dac3050230d86.png

结果示意如下

4b684b6fad0d5f78514ec6e0118a67a7.png

数据下载并整理好之后,就可以进行分析了。不同类型的数据对应的分析方法也不同,具体的分析方法请参考官方文档。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

8b5eab27df7658f64efd25eb968398bc.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值