单基因gsea_【9月11日直播答疑】基于疾病的单基因进行生信分析软件GSEA

最新推荐文章于 2024-06-28 16:42:25 发布

weixin_39577052

最新推荐文章于 2024-06-28 16:42:25 发布

阅读量816

点赞数 2

文章标签：单基因gsea

常规的高通量数据分析思路是一种趋势分析。即从几万个基因中，通过逻辑的思路，一步一步的缩小范围，最终找到与疾病关联的关键基因 /通路。这也是我们生信分析中比较常见的分析目标——寻找关键靶标基因。

但是，也有很多老师遇到这样一类问题：我现在已经有关心的靶标基因了(通过实验/文献/导师研究)，而且非常肯定，那怎样才能基于疾病的单基因进行生信分析呢？在这里给大家推荐一个软件GSEA，可以非常好的解决这个问题。

基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法，将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础，构建一个分子标签数据库，在此数据库中将已知基因按照染色体位置、已建立基因集、模序、肿瘤相关基因集和GO基因集等多个功能基因集进行分组与归类。通过分析基因表达谱数据，了解它们在特定的功能基因集中的表达状况，以及这种表达状况是否存在某种统计学显著性。

上面的解读还是比较抽象的，说的直白一点就是，GSEA可以将高通量数据(测序/芯片)进行特定的基因排序，然后对基因进行功能富集，包括KEGG pathway或GO BP,CC,MF等。但是和之前我们讲的DAVID功能富集不太一样。

GSEA的分析思路常见的有两个：

(1) 样本分成两组，计算两组之间的差异基因，然后根据差异基因的上下调排序做功能富集分析；

(2) 只有一组样本，还有一个关键基因，通过关键基因与其他基因的表达相关性排序，然后做功能富集分析。

其中，第一种思路是最常见的，就是简单的对差异基因做功能富集。今天要讲的是第二种思路，疾病关键基因的调控功能富集分析。相关的文献有很多，在这里我推荐两篇。

第一篇：《RORα is crucial for attenuated inflammatory response to maintain intestinal homeostasis》

第二篇：《RNAi-mediated silencing of AQP1 expression inhibited the proliferation, invasion and tumorigenesis of osteosarcoma cells》

这种文献的共同点——疾病+1个关键基因+关键功能。

那么前期关键基因(RORα)是怎么获得的我这里就不细讲了。基于GEO数据库中的GSE121977这套实验组数据，作者以RORα基因为关键表型标签(phenotype label)，以Pearson correlation为排序算法(Metric for ranking genes)。经过分析发现RORα在肠道炎症疾病数据中，可以调控各种炎症响应功能。这个结果与表型可以密切关联。

原文：The phenotype label for GSEA was set to RORαf/f on day 0: RORαf/f on day 8: RORαΔIEC on day 0: RORαΔIEC on day 8 = 1:2:1:3, and the Pearson correlation coefficient was then calculated per gene for ranking

第二篇文献的思路也非常相似，先是获得了关键基因(AQP1)，然后基于GEO数据库中的GSE42352这套实验组数据，以AQP1基因为关键表型标签(phenotype label)，以Pearson correlation为排序算法(Metric for ranking genes)。经过分析发现AQP1在骨肉瘤疾病数据中，可以调控TGF-b signaling pathway 和 focal adhesion两个通路，这两个通路很明显是和凋亡相关的癌症通路。这个结果与表型可以密切关联。

分析结果图及文献原文如下所示：