但是,也有很多老师遇到这样一类问题:我现在已经有关心的靶标基因了(通过实验/文献/导师研究),而且非常肯定,那怎样才能基于疾病的单基因进行生信分析呢?在这里给大家推荐一个软件GSEA,可以非常好的解决这个问题。
基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法,将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础,构建一个分子标签数据库,在此数据库中将已知基因按照染色体位置、已建立基因集、模序、肿瘤相关基因集和GO基因集等多个功能基因集进行分组与归类。通过分析基因表达谱数据,了解它们在特定的功能基因集中的表达状况,以及这种表达状况是否存在某种统计学显著性。
上面的解读还是比较抽象的,说的直白一点就是,GSEA可以将高通量数据(测序/芯片)进行特定的基因排序,然后对基因进行功能富集,包括KEGG pathway或GO BP,CC,MF等。但是和之前我们讲的DAVID功能富集不太一样。
GSEA的分析思路常见的有两个:
(1) 样本分成两组,计算两组之间的差异基因,然后根据差异基因的上下调排序做功能富集分析;
(2) 只有一组样本,还有一个关键基因,通过关键基因与其他基因的表达相关性排序,然后做功能富集分析。
其中,第一种思路是最常见的,就是简单的对差异基因做功能富集。今天要讲的是第二种思路,疾病关键基因的调控功能富集分析。相关的文献有很多,在这里我推荐两篇。
第一篇:《RORα is crucial for attenuated inflammatory response to maintain intestinal homeostasis》
第二篇:《RNAi-mediated silencing of AQP1 expression inhibited the proliferation, invasion and tumorigenesis of osteosarcoma cells》
这种文献的共同点——疾病+1个关键基因+关键功能。
那么前期关键基因(RORα)是怎么获得的我这里就不细讲了。基于GEO数据库中的GSE121977这套实验组数据,作者以RORα基因为关键表型标签(phenotype label),以Pearson correlation为排序算法(Metric for ranking genes)。经过分析发现RORα在肠道炎症疾病数据中,可以调控各种炎症响应功能。这个结果与表型可以密切关联。
原文:The phenotype label for GSEA was set to RORαf/f on day 0: RORαf/f on day 8: RORαΔIEC on day 0: RORαΔIEC on day 8 = 1:2:1:3, and the Pearson correlation coefficient was then calculated per gene for ranking
第二篇文献的思路也非常相似,先是获得了关键基因(AQP1),然后基于GEO数据库中的GSE42352这套实验组数据,以AQP1基因为关键表型标签(phenotype label),以Pearson correlation为排序算法(Metric for ranking genes)。经过分析发现AQP1在骨肉瘤疾病数据中,可以调控TGF-b signaling pathway 和 focal adhesion两个通路,这两个通路很明显是和凋亡相关的癌症通路。这个结果与表型可以密切关联。
分析结果图及文献原文如下所示:
下面简单的介绍一下GSEA软件的使用。
首先,GSEA软件下载于官网https://www.gsea-msigdb.org/gsea/index.jsp 。需要注册登陆,下载安装包。该软件需要java支撑。
第二,安装软件,并打开。界面如下
第三,导入数据。
我们导入的表达谱数据是gct格式文件,表型标签是cls文件。
当然我们这里不需要导入cls文件,因为我们的表型标签是一个基因,不需要对样本分组。
第四,设置参数。
重要参数就是三个:
(1) 选择预设基因集。可以选择KEGG PATHWAY,也可以选择GOBP, GOCC ,GOMF等。
(2) 选择表型标签。以单个基因为表型标签。
(3) 选择排序方法。以pearson为排序算法。
(4) 其他参数默认,点击“Run”,开始分析,出结果。
本周五(9月11日)晚上19:30,我们举办第二期《临床医学与生信项目咨询会议》。会议上我们会给大家简单分享一篇最新的2020年发表的关于GSEA 基因集富集分析的文献思路,详情见视频号介绍,然后再进行咨询答疑。