gsea富集分析结果怎么看_开始使用GSEA

最新推荐文章于 2024-05-29 11:59:29 发布

weixin_39594103

最新推荐文章于 2024-05-29 11:59:29 发布

阅读量1.2k

点赞数

文章标签： gsea富集分析结果怎么看

上面的理论也学得差不多了，需要实际演练一下子了。于是从GEO里面下载了一个数据集https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE7803，不过其实是点击的下面这个地方，所以下载的是：

这两个地方都是可以点击的，下面那个椭圆形的应该是已经经过了进一步注释的，点击下面那个呈现如图：

点击上面那个矩形，呈现的图形如下：

下载完了文件以后，则基于已经下载好的文件构建GSEA运行所需要的四个文件gct、cls、gmt、chip，这几个文件构建的时候，文件名里面一定不要含有“—”连接符。

其中的gct构建得比较顺利；构建cls时，需要到上面提到的samples那里看一下别人的芯片是如何分组的，然后才能在cls表型文件里面确实如何进行排序什么的；gmt文件的话，下载下来的文件里面没有与之间的说明里面提到的那个相似的方式，也就是并没有一个染色体位置对应一堆基因，反而是一人染色体位置对应的是GO的三个注释分析，所以最后去的MSigDB数据库直接下载的包含有全人类基因位置注释的文件c5.all.v6.0.symbols.gmt。还有许多其它的各类的文件可以供使用:

最后是关于chip文件，自己构建的时候出了很多的bug，首先是从原始文件进行构建的时候，在最后几排好像并没有对应得上的gene symbol，所以这里需要另外去把它删掉才行，也就是说不能留空格，要用NA代替。后来发现还是不行，再仔细看的时候，自己把symbol写成了symble，由于字符写错了，所以GSEA也是识别不出来的，所以一定要把首行的字符串写清楚。即Probe Set ID/Gene Symbol/Gene Title。

注：结果后来发现，gmt的基因组数据文件以及chip的芯片数据文件都是可以在GSEA准备运行的选项里面进行选择的，所以说，其实真正要准备的文件其实只有gct表达数据文件和cls表型数据文件。

至于上面看到的基因芯片是哪个平台的，如何选择的话，可以去下载芯片的地方看GLPxxx开头的文件那里就有，然后根据这个来对应选择就好了。

等待了将近20分钟后，终于运行完毕，然后就在左边的success字样那里点击：

然后就会在网页上进行显示。不过，实际上本地也同样保存了这些文件C:UsersFoolingsea_homeoutputoct06my_analysis

可以进行一步进行leading edge analysis分析，这个分析是基于run以后的结果进行的，需要找到生成的edb文件：

GSEA富集分析后会根据基因的表达，算出相较于对照组，出现了明显改变的生物过程的变化：

真正能够形成那个像山峰一样的图的过程是少数的，因为要满足一系列的参数要求，比如上面这个图里面的p-val、FDR q-val、FWER p-val等等值的要求，至少而言，标准化后的p值应该要<0.05，FDR q值应该<0.25，所以这两个值越小，其可靠性就越高。其中的p值表示t检验条件下统计出错的可能性，q值表示富集出现错误的可能性。

然后我们再随便选择一个EPITHELIAL_CELL_PROLIFERATION来看一下里面有什么：

除了在网页版本里面有之外，这些数据都是可以在本地直接找到的，只不过样子可能有一些差别。

然后出现的富集结果还可以进行leading edge analysis分析，这些富集信息会暂时出现在列表中，如下图所示：

注：上面的这些单个的富集信息是可以选中的，一个或者多个，然后再进行leading edge analysis分析，选中以后，点击右下角的run leading edge analysis，然后又可以得到一堆结果。

关闭软件，下次还想查看的话，就点击Analysis History，然后加载之前的分析历史：

以上。

weixin_39594103

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
gsea富集分析结果怎么看_开始使用GSEA

上面的理论也学得差不多了，需要实际演练一下子了。于是从GEO里面下载了一个数据集https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE7803，不过其实是点击的下面这个地方，所以下载的是：这两个地方都是可以点击的，下面那个椭圆形的应该是已经经过了进一步注释的，点击下面那个呈现如图：点击上面那个矩形，呈现的图形如下：下载完了文件以后，则基于已经下...
复制链接

扫一扫