python 分析两组数据的差异_TGCA数据的标准化以及差异分析

该教程详细介绍了如何使用Python对TCGA数据进行标准化和差异分析。首先,从GTF文件中提取mRNA和lncRNA,然后通过Deseq2包进行数据标准化,包括mRNA标准化。接着,利用metadata文件构建dds对象,进行差异分析。最后,讨论了如何处理没有正常对照的肿瘤样本,并强调了标准化和差异分析在生信研究中的重要性。
摘要由CSDN通过智能技术生成

前面我们从GDC下载了TCGA肿瘤数据库的数据,也能够把GDC下载的多个TCGA文件批量读入R

今天我们讲一下TCGA数据的标准化,以及差异分析,得到了标准化后的数据,我们就可以按照以前的帖子,做一系列操作

Y叔推荐的这个图有毒!

图有毒系列之2

多个基因在多亚组疾病中的展示

在得到了差异分析的结果后,我们可以完成热图,火山图,GO分析,KEGG分析,GSEA分析,就跟这个帖子中的一样。
来完成你的生信作业,这是最有诚意的GEO数据库教程

下面开始今天的教程:
首先加载上一次课获得的数据;

### 加载数据
load("expr_df.Rdata")

现在的数据是这个样子的

4df9935d5875f6e0a6f55ff55fcb902e.png
处理前

去掉ensemble ID的点号

library(tidyr)
expr_df_nopoint % 
  tidyr::separate(gene_id,into = c("gene_id"),sep="\\.") 

现在的数据是这个样子的

0cbdc739ebbf3270299ecf9fa6014c9b.png
处理后

去掉点号,是为了用gtf文件。
gtf文件的获取和作用在这里
GTF文件有什么用啊?别的不谈,最起码能提lncRNA

加载gtf文件,这是目前我们能接触的最大文件,有260万行。

load(file = "gtf_df.Rda")

提取mRNA

mRNA_exprSet % 
  dplyr::filter(type=="gene",gene_biotype=="protein_coding&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值