GSEAmining | 来看看你的GSEA结果是不是需要瘦身啦!~

1写在前面

最近真是累的不行,今天抽空写一下新的教程,关于人人都会做的GSEAGene Set Enrichment Analysis)。

但有时候我们做完GSEA后结果实在太多,无法确定其中重要的生物学意义,难以解释。🤨

本期我们介绍一下GSEAmining包,对我们的GSEA结果做一个瘦身吧,基本原理是:👇

1️⃣ 对参与类似生物过程的基因集应该有共同的基因
2️⃣ 对拥有一定数量的共同基因的相似基因集进行功能聚类。

2用到的包

rm(list = ls())
# if (!requireNamespace("BiocManager", quietly = TRUE))
# install.packages("BiocManager")
#
# BiocManager::install("GSEAmining")

library(dplyr)
library(GSEAmining)
library(clusterProfiler)
library(msigdbr)
library(org.Hs.eg.db)

3示例数据

这里我们从DOSE包里提取一些基因,作为我们的genelist,假装是我们的输入数据。😙

data(geneList, package="DOSE")
gene <- names(geneList)[abs(geneList) > 2]

# Entrez gene ID
head(gene)
alt

4整理gmt

这里我们用msigdbr包提取一下hallmarkGOKEGG的基因集。🤒

再也不用去下载gmt文件了,真香!~😂

h_t2g <- msigdbr(species = "Homo sapiens", category = "H") %>% 
dplyr::select(gs_name, entrez_gene)

C2_t2g <- msigdbr(species = "Homo sapiens", category = "C2", subcategory = "CP:KEGG") %>%
dplyr::select(gs_name, entrez_gene)

C5_t2g <- msigdbr(species = "Homo sapiens", category = "C5") %>%
dplyr::select(gs_name, entrez_gene)

all_t2g <- rbind(h_t2g, C2_t2g, C5_t2g)

head(all_t2g)
alt

5GSEA分析

5.1 开始GSEA

GSEA.res <- GSEA(geneList, TERM2GENE = all_t2g, pvalueCutoff = 0.1, eps = 0)
alt

5.2 将ID转为SYMBOL

GSEA.res <- setReadable(GSEA.res, keyType = "ENTREZID", OrgDb = "org.Hs.eg.db")

dat <- GSEA.res@result

5.3 过滤一下

这里我们设个阈值,过滤一下,实在是太多了。😂

gs.filt <- gm_filter(dat, 
p.adj = 0.05,
neg_NES = 2.5,
pos_NES = 2.5)

6聚类

6.1 开始聚类

这里我们进行一下hierarchical clustering,对富集结果进行一下瘦身。🤨

补充一下,这一步是基于core_enrichment的。😷

gs.cl <- gm_clust(gs.filt)
gs.cl
alt

6.2 初步可视化

画个cluster dendrogram吧, 红色 ➡️ positive, 蓝色 ➡️ negative。😙

gm_dendplot(gs.filt, 
gs.cl)
alt

6.3 改个颜色

gm_dendplot(gs.filt, 
gs.cl,
col_pos = 'orange',
col_neg = 'black',
rect = T,
dend_len = 20,
rect_len = 1)
alt

7分组评估富集结果

这里我们按cluster对各个cluster进行一下深入分析,看看那个term才是最重要的。🤩

7.1 分组分析

这里我们有4cluster,看看都是什么term吧。😁
我们用词云的方式展示下结果,越大越有意义。🧐

gm_enrichterms(gs.filt, gs.cl)
alt

7.2 不分组分析

当然你也可以不按cluster分析,全部都放在一起。😂

gm_enrichterms(gs.filt, 
gs.cl,
clust = F,
col_pos = 'chocolate3',
col_neg = 'skyblue3')
alt

8分组评估具体基因

对于找到的有意义的基因集,我们也可以看下哪个基因对其贡献最大,在其中起到最重要的作用。😏

gm_enrichcores(gs.filt, gs.cl,
col_pos = 'chocolate3',
col_neg = 'skyblue3')
alt

9如何引用

📍
Arqués O (2022). GSEAmining: Make Biological Sense of Gene Set Enrichment Analysis Outputs. R package version 1.8.0.


alt
最后祝大家早日不卷!~

点个在看吧各位~ ✐.ɴɪᴄᴇ ᴅᴀʏ 〰

📍 往期精彩

📍 🤩 WGCNA | 值得你深入学习的生信分析方法!~
📍 🤩 ComplexHeatmap | 颜狗写的高颜值热图代码!
📍 🤥 ComplexHeatmap | 你的热图注释还挤在一起看不清吗!?
📍 🤨 Google | 谷歌翻译崩了我们怎么办!?(附完美解决方案)
📍 🤩 scRNA-seq | 吐血整理的单细胞入门教程
📍 🤣 NetworkD3 | 让我们一起画个动态的桑基图吧~
📍 🤩 RColorBrewer | 再多的配色也能轻松搞定!~
📍 🧐 rms | 批量完成你的线性回归
📍 🤩 CMplot | 完美复刻Nature上的曼哈顿图
📍 🤠 Network | 高颜值动态网络可视化工具
📍 🤗 boxjitter | 完美复刻Nature上的高颜值统计图
📍 🤫 linkET | 完美解决ggcor安装失败方案(附教程)
📍 ......

本文由 mdnice 多平台发布

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
GSEA(Gene Set Enrichment Analysis)是一种用于功能富集分析的生物信息学方法,旨在识别在基因表达数据中富集的基因集。而GSEA prerank则是GSEA方法中的一种扩展应用。 在GSEA prerank中,首先需要根据样本表达数据的差异性对每个基因进行排序,通常使用一些统计指标(例如t统计量或log2折叠变化)进行排序。然后,将已知的基因集(例如已知的生物通路或基因功能分类)从已排序的基因列表中提取出来,得到一个基因集列表。 接下来,GSEA prerank会对这个基因集列表进行分析。它通过计算每个基因集内部基因的累积秩和(accumulate ranks),来衡量基因集的富集程度。秩和的计算考虑了基因在排序列表中的位置,与其差异性相关。 最后,GSEA prerank根据计算得到的富集分数进行基因集的排序与可视化。富集分数越高,表示该基因集在样本中的表达数据中的富集程度越高。 GSEA prerank方法的优点在于,它可以使用各种不同的差异性排序方法,并且不对表达数据进行基因差异性显著性检验。由于不需要预先进行基因统计检验,GSEA prerank方法可以更好地应用于小样本数据或低差异表达的情况。 总结来说,GSEA prerank是一种使用差异性排序方法对基因集进行富集分析的生物信息学方法,可以帮助研究人员发现基因集在表达数据中的富集程度。它在功能研究、生物通路分析等领域具有广泛的应用前景。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值