TCGA数据下载和整理工具----GDCRNATools

TCGA数据下载和整理的网站及软件发表很多了,比如Broad GDAC Firehose, Oncomine, TCGAbiolinks,TCGA-Assembler, TCGA2STAT,RTCGAToolbox等等,这些网站或软件要么使用的是TCGA更新前的数据,要么运行起来比较繁琐。当然各个工具都有其优势所在。

之前在论坛里分享了自己下载和整理TCGA数据的Python代码。最近忙里偷闲重新写了个R包,GDCRNATools,主要功能是寻找lncRNAs相关的ceRNAs。为方便用户使用,其中也加入了TCGA数据下载、整理和常规分析工具。整个流程都非常容易上手,只要有一点R编程基础就可以。目前R包还在Bioconductor under review。在这里先提前分享一下,方便大家更好的对TCGA数据进行挖掘。个人认为这是目前使用起来最方便的TCGA工具。

先上GDCRNATools流程图:

 


1. GDCRNATools下载与安装
因为该R包还未在Bioconductor公布,因此暂时只能先将其下载到本地进行安装。
下载地址: GDCRNATools
安装说明: GDCRNATools安装说明
在Linux和Mac系统的安装比较容易,只要把压缩包下载,运行一条命令就可以。
[AppleScript]  纯文本查看  复制代码
?
1
install.packages ( 'GDCRNATools_ 0.9 9.0 .tar.gz' , repos = NULL , type = 'source' )

Windows系统下需要先安装 Rtools ,把R和Rtools加入环境变量,然后在command prompt里输入
[AppleScript]  纯文本查看  复制代码
?
1
R CMD INSTALL GDCRNATools_ 0.9 9.0 .tar.gz

具体请参照 GDCRNATools安装说明

2. GDCRNATools使用说明
详细的使用说明为一个html文件,可以将该文件下载到本地然后用任意浏览器打开即可。
使用说明: GDCRNATools使用说明


3. GDCRNATools数据下载
GDCRNATools提供了两种数据下载方式:(1) 用户可以到 GDC网站 将所需数据加入购物车,下载manifest文件以及metadata文件(后续分析需要),然后在gdcRNADownload里提供该manifest文件即可; (2)用户也可以直接在gdcRNADownload里指定需要下载的project id及data type,数据便可自动下载。第2种方式只能下载RNA HTseq-Counts数据以及Isoform Expression Quantification数据。临床数据需要使用gdcClinicalDownload下载。

4.GDCRNATools数据整理
前面提到的metadata里有所下载数据的基本信息以及一些临床信息。GDCRNATools中的gdcParseMetadata可以将其中的信息整理成表格,同上,用户可以提供metadata文件,也可以直接指定project id及data type。提取出的metadata在后续分析会经常用到。
gdcRNAMerge可以将RNA counts数据整理成表格,也可以提取成熟miRNAs的数据并整理成表格。gdcClinicalMerge专门用于临床数据的整理。

5. GDCRNATools数据分析
(1)差异基因分析:用户可以在gdcDEAnalysis中自选limma,edgeR,或DESeq2进行差异基因分析
(2)生存分析:gdcSurvivalAnalysis可以进行基因批量生存分析,包括CoxPH及KM分析
(3)功能富集分析:gdcEnrichAnalysis可以同时进行GO, KEGG, DO分析,功能富集分析基于Y叔的两个R包ClusterProfiler和DOSE,这两个包使用的都是最新的数据
(4)内源竞争性RNA分析:gdcCEAnalysis是GDCRNATools的主打功能,通过lncRNA与mRNA共有的miRNA,lncRNA与mRNA表达相关性,以及共有miRNAs对lncRNA以及mRNA的调控相似性来寻找lncRNA相关的ceRNA。gdcCEAnalysis中整合了 spongeScan starBase V2.0 ,  mirTarBase ,以及 miRcode 四个数据库中miRNA与lncRNA、mRNA的互作关系。所有基因的ID都更新到了Ensembl 90, miRNA的ID更新到了最新的miRBase release 21。

(5)其他功能:除上述分析外,用户可能感兴趣lncRNA,pseudogene等的其他分析,GDCRNATools可以帮用户提取这些基因

6. GDCRNATools的视图功能
常规的火山图,柱状图,散点图,富集分析气泡图,生存曲线等等都可以在GDCRNATools中实现。用户也可以使用GDCRNATools中三个简单的shiny工具在网页上选取感兴趣的基因,通路来观察他们的生存曲线,表达相关性,及富集的KEGG通路map。

详细流程及运行代码请参考: GDCRNATools使用说明

最后欢迎使用GDCRNATools,希望多多交流指正~
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值