前期小王子已经更过单基因生信分析--差异分析&生存分析,今天,小王子跟大家一起学习如何进行下游挖掘,也就是本期主打的单基因下游富集通路,以下以TCGA数据库中的LIHC数据为例,跳跃的部分大家可以结合着前期推送一起看。
一、整理基因表达数据:将TCGA中的LIHC基因表达数据整理成如下形式的数据:
######整理基因表达数据######rm(list = ls())library(data.table)library(magrittr)expr 'TCGA-LIHC.htseq_fpkm.tsv.gz',h=T,check.names = F)ann 'gencode.v22.annotation.gene.probeMap',h=T)expr2 1:library(limma)expr2 -1],ID=expr2$gene) %>% expr3 as.data.frame(t(expr2))expr4 ###将基因按照首字母排列
二、进行相关性分析:
相关性分析常用的有pearson相关系数和spearman相关系数,其中pearson相关系数适用于连续性变量,且变量服从正态分布的情况,为参数性的相关系数;而spearman相关系数适用于连续性及分类型变量,为非参数性的相关系数。以下采用spearman相关。
######进行相关性分析######gene "A1BG"]) col data for (i in 1:length(col)){
test type= data[i,2] test data[i,3] test }
三、设置筛选条件,获得最终的显著相关基因:
这里的p值<0.05会有很多基因满足,我们需要进一步根据筛选出来的基因个数来设置相关系数cor的阈值,这里小王子设置成0.6,