单基因gsea_【9月11日直播答疑】基于疾病的单基因进行生信分析软件GSEA

常规的高通量数据分析思路是一种趋势分析。即从几万个基因中,通过逻辑的思路,一步一步的缩小范围,最终找到与疾病关联的关键基因 /通路。 这也是我们生信分析中比较常见的分析目标——寻找关键靶标基因。

但是,也有很多老师遇到这样一类问题:我现在已经有关心的靶标基因了(通过实验/文献/导师研究),而且非常肯定,那怎样才能基于疾病的单基因进行生信分析呢?在这里给大家推荐一个软件GSEA,可以非常好的解决这个问题。

基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法,将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础,构建一个分子标签数据库,在此数据库中将已知基因按照染色体位置、已建立基因集、模序、肿瘤相关基因集和GO基因集等多个功能基因集进行分组与归类。通过分析基因表达谱数据,了解它们在特定的功能基因集中的表达状况,以及这种表达状况是否存在某种统计学显著性。

上面的解读还是比较抽象的,说的直白一点就是,GSEA可以将高通量数据(测序/芯片)进行特定的基因排序,然后对基因进行功能富集,包括KEGG pathway或GO BP,CC,MF等。但是和之前我们讲的DAVID功能富集不太一样。

GSEA的分析思路常见的有两个:

(1) 样本分成两组,计算两组之间的差异基因,然后根据差异基因的上下调排序做功能富集分析;

(2) 只有一组样本,还有一个关键基因,通过关键基因与其他基因的表达相关性排序,然后做功能富集分析。

其中,第一种思路是最常见的,就是简单的对差异基因做功能富集。今天要讲的是第二种思路,疾病关键基因的调控功能富集分析。相关的文献有很多,在这里我推荐两篇。

第一篇:《RORα is crucial for attenuated inflammatory response to maintain intestinal homeostasis》

3ef2d9b3a88283eb28f6fc8ede5b15ea.png

第二篇:《RNAi-mediated silencing of AQP1 expression inhibited the proliferation, invasion and tumorigenesis of osteosarcoma cells》

461d54b47410a48350ef62620f981eb5.png

这种文献的共同点——疾病+1个关键基因+关键功能。

那么前期关键基因(RORα)是怎么获得的我这里就不细讲了。基于GEO数据库中的GSE121977这套实验组数据,作者以RORα基因为关键表型标签(phenotype label),以Pearson correlation为排序算法(Metric for ranking genes)。经过分析发现RORα在肠道炎症疾病数据中,可以调控各种炎症响应功能。这个结果与表型可以密切关联。

原文:The phenotype label for GSEA was set to RORαf/f on day 0: RORαf/f on day 8: RORαΔIEC on day 0: RORαΔIEC on day 8 = 1:2:1:3, and the Pearson correlation coefficient was then calculated per gene for ranking

1dc0f2ac88d107ec67e3eb0bdef8eadd.png

第二篇文献的思路也非常相似,先是获得了关键基因(AQP1),然后基于GEO数据库中的GSE42352这套实验组数据,以AQP1基因为关键表型标签(phenotype label),以Pearson correlation为排序算法(Metric for ranking genes)。经过分析发现AQP1在骨肉瘤疾病数据中,可以调控TGF-b signaling pathway 和 focal adhesion两个通路,这两个通路很明显是和凋亡相关的癌症通路。这个结果与表型可以密切关联。

分析结果图及文献原文如下所示:

48cf19a41aef70f6e3d9e4551538af68.png

c6b76e571d090b8d0d36748c46a6fcf8.png

下面简单的介绍一下GSEA软件的使用。

首先,GSEA软件下载于官网https://www.gsea-msigdb.org/gsea/index.jsp 。需要注册登陆,下载安装包。该软件需要java支撑。

 第二,安装软件,并打开。界面如下

f3f0af262f9f30b436f04778b0803c51.png

a48356b9e698fb3a92a1dafc8242040d.png

fcdb91e945f4df6a48c9d3b0e809985a.png

 第三,导入数据。

我们导入的表达谱数据是gct格式文件,表型标签是cls文件。

当然我们这里不需要导入cls文件,因为我们的表型标签是一个基因,不需要对样本分组。

4fc1fb9d91ef3fbdd27ebc66b087fbb8.png

第四,设置参数。

重要参数就是三个:

(1) 选择预设基因集。可以选择KEGG PATHWAY,也可以选择GOBP, GOCC ,GOMF等。

(2) 选择表型标签。以单个基因为表型标签。

(3) 选择排序方法。以pearson为排序算法。

(4) 其他参数默认,点击“Run”,开始分析,出结果。

27c78ba5b45361897126091ab0d12d29.png

e18c6ef877091af432299d6003064ff7.png

864807bd9334a296e0de1d7fd291ca1c.png

e7c7bfecbf5c7eb1148a96e9403a2069.png

d13a08a2d34820bef08050ea58b82888.png

ce080287c68e88e3a3ceeb0f58028237.png

 本周五(9月11日)晚上19:30,我们举办第二期《临床医学与生信项目咨询会议》。会议上我们会给大家简单分享一篇最新的2020年发表的关于GSEA 基因集富集分析的文献思路,详情见视频号介绍,然后再进行咨询答疑。

f90951460085bc4b9c43aa2806f780d7.png

c1af39a30247c2aee440f1d1393da9b5.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值