前面我们从GDC下载了TCGA肿瘤数据库的数据,也能够把GDC下载的多个TCGA文件批量读入R
今天我们讲一下TCGA数据的标准化,以及差异分析,得到了标准化后的数据,我们就可以按照以前的帖子,做一系列操作
Y叔推荐的这个图有毒!
图有毒系列之2
多个基因在多亚组疾病中的展示
在得到了差异分析的结果后,我们可以完成热图,火山图,GO分析,KEGG分析,GSEA分析,就跟这个帖子中的一样。
来完成你的生信作业,这是最有诚意的GEO数据库教程
下面开始今天的教程:
首先加载上一次课获得的数据;
### 加载数据
load("expr_df.Rdata")
现在的数据是这个样子的
去掉ensemble ID的点号
library(tidyr)
expr_df_nopoint %
tidyr::separate(gene_id,into = c("gene_id"),sep="\\.")
现在的数据是这个样子的
去掉点号,是为了用gtf文件。
gtf文件的获取和作用在这里
GTF文件有什么用啊?别的不谈,最起码能提lncRNA
加载gtf文件,这是目前我们能接触的最大文件,有260万行。
load(file = "gtf_df.Rda")
提取mRNA
mRNA_exprSet %
dplyr::filter(type=="gene",gene_biotype=="protein_coding&