学计算机的怎样分析TCGA数据库,癌症研究数据库TCGA-分析工具RTCGA的使用方法

RTCGA不是一个单独的包,而是一系列按TCGA数据类型分开的R包集合。

背景介绍

TCGA数据库作为癌症研究的首选公共数据库,整合了各种癌症的多组学数据,主要包含DNA、mRNA、miRNA、total RNA sequencing以及甲基化、拷贝数等多种数据类型,今天小编给大家带来的是一个针对TCGA多种数据类型进行下载和分析的工具--RTCGA! RTCGA的工作流程主要如下图所示: (参考链接:https://rtcga.github.io/RTCGA/index.html)

ffba40fab6719022cfdbbc6aa7e884b5.png

在作者的说明文件可以看到,目前最新的数据是更新到2016.1.28,数据类型主要包括:mutations,RNA-seq,clinical,mRNA,miRNA-seq,RPPA,CNV,methylation.

c489a0ad279b7847adcb848a0b5bf451.png

R包安装

首先用bioconductor安装RTCGA包,在获取不同类型的数据进行分析的过程中,都要先安装特定的包! BiocManager::install("RTCGA")library(RTCGA)#先用infoTCGA()看一下R包中的数据统计infoTCGA()

e24d1c617f2b854aff4ad9f22f57214a.png

数据获取及分析

01   基因表达数据

在这里我们用COAD,LUAD两种癌症作为示例,基因选取TP53、PTEN、METTL3。 ##首先提取这三个基因在COAD、LUAD中的表达矩阵library(RTCGA.mRNA)expr

e723a0ed21651f97a14d027a7e54f256.png

去掉dataset列的'.mRNA'后缀,方便后续可视化 #计数一下两种癌症的样本数nb_samples

34823a95b6f41658e0b8a33e82ac7be0.png

可以通过ggpubr包对表达数据进行一个可视化统计: ggboxplot(expr, x = "dataset", y = c("TP53", "PTEN", "METTL3"), combine = TRUE, color = "dataset", palette = "jco", ylab = "Expression", add = "jitter", # Add jittered points add.params = list(size = 0.1, jitter = 0.2) # Point size and the amount of jittering)

70a16af55176832c2f1106fdeb77b897.png

可以标注一些显著的基因 ggboxplot(expr, x = "dataset", y = c("TP53", "PTEN", "METTL3"), combine = TRUE, color = "dataset", palette = "jco", ylab = "Expression", add = "jitter", # Add jittered points add.params = list(size = 0.1, jitter = 0.2), # Point size and the amount of jittering label = "bcr_patient_barcode", # column containing point labels label.select = list(top.up = 2, top.down = 2),# Select some labels to display font.label = list(size = 9, face = "italic"), # label font repel = TRUE # Avoid label text overplotting)

8a2c8c32db84eb9359d32467e7e2c893.png

02   PCA分析

使用RTCGA.rnaseq包数据进行PCA分析,expressionsTCGA ()函数获取表达数据,在这里我们使用全部基因进行PCA。

expressionsTCGA()如指定参数extract.cols,则返回特定基因在各个样本的表达量,如果想返回特定基因,可将参数赋值为“Gene symbol|Gene ID”形式,如 'VENTX|27287'。

library(RTCGA.rnaseq)expressionsTCGA(COAD.rnaseq, LUAD.rnaseq) %>% rename(cohort = dataset) %>% filter(substr(bcr_patient_barcode, 14, 15) == "01") -> plotpcaTCGA(plot, "cohort") -> plotplot(plot)

f7cb7de3c7c34195d2a399169fe3a773.png

03   生存分析

使用RTCGA.clinical包获取生存数据,按照癌症类型分为38个数据集,名称分别为COAD.clinical, LUAD.clinical等。

以COAD数据集为例,首先看一下数据集的内容:

library('RTCGA.clinical')library('tidyverse')clinical=COAD.clinicalhead(colnames(clinical))dim(clinical)

6e267593812a511a5af830819dc149c5.png

使用survivalTCGA()函数可以从RTCGA.clinical中获取临床数据,如果不注明extract.cols参数,那么结果只有三列:times 、bcr_patient_barcode、patient.vital_status,分别是生存时间、barcode及病人生存状态。

# 获取COAD和LUAD的生存数据survivalTCGA(COAD.clinical, LUAD.clinical, extract.cols = 'admin.disease_code') -> clinical_plot# kmTCGA绘图kmTCGA(clinical_plot, explanatory.names = 'admin.disease_code', pval = TRUE)kmTCGA(clinical_plot, explanatory.names = 'admin.disease_code', main = '',#设置随访时间xlim = c(0,4000))

1ae22726e43aac35467d6e597eadb7c5.png

小编总结

RTCGA作为一个专注于TCGA数据分析的工具,不仅仅可以让我们更加方便快捷的下载到所需的数据,并且内部还提供了丰富的分析和可视化工具,完美的契合了TCGA的各个数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值