gsea富集分析结果怎么看_开始使用GSEA

上面的理论也学得差不多了,需要实际演练一下子了。于是从GEO里面下载了一个数据集https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE7803,不过其实是点击的下面这个地方,所以下载的是:

7497ecc291f2c0bc291c00db559fda7e.png

这两个地方都是可以点击的,下面那个椭圆形的应该是已经经过了进一步注释的,点击下面那个呈现如图:

1a96ce15f805a1c6137840262ddd86f9.png

点击上面那个矩形,呈现的图形如下:

27976db9c5443c09d1e7edf6a5ae188a.png

下载完了文件以后,则基于已经下载好的文件构建GSEA运行所需要的四个文件gct、cls、gmt、chip,这几个文件构建的时候,文件名里面一定不要含有“—”连接符

其中的gct构建得比较顺利;构建cls时,需要到上面提到的samples那里看一下别人的芯片是如何分组的,然后才能在cls表型文件里面确实如何进行排序什么的;gmt文件的话,下载下来的文件里面没有与之间的说明里面提到的那个相似的方式,也就是并没有一个染色体位置对应一堆基因,反而是一人染色体位置对应的是GO的三个注释分析,所以最后去的MSigDB数据库直接下载的包含有全人类基因位置注释的文件c5.all.v6.0.symbols.gmt。还有许多其它的各类的文件可以供使用:

a7c44f32c1ed8bc090e85e7f5121db22.png

最后是关于chip文件,自己构建的时候出了很多的bug,首先是从原始文件进行构建的时候,在最后几排好像并没有对应得上的gene symbol,所以这里需要另外去把它删掉才行,也就是说不能留空格,要用NA代替。后来发现还是不行,再仔细看的时候,自己把symbol写成了symble,由于字符写错了,所以GSEA也是识别不出来的,所以一定要把首行的字符串写清楚。即Probe Set ID/Gene Symbol/Gene Title。

注:结果后来发现,gmt的基因组数据文件以及chip的芯片数据文件都是可以在GSEA准备运行的选项里面进行选择的,所以说,其实真正要准备的文件其实只有gct表达数据文件和cls表型数据文件。

7f2f6a2a8932d9119750649d1a61f706.png

至于上面看到的基因芯片是哪个平台的,如何选择的话,可以去下载芯片的地方看GLPxxx开头的文件那里就有,然后根据这个来对应选择就好了。

4c724e040394cd5973aed9aa4aa5ebc5.png

等待了将近20分钟后,终于运行完毕,然后就在左边的success字样那里点击:

5f299ed19cdc0c7f468a3515a14d32e2.png

然后就会在网页上进行显示。不过,实际上本地也同样保存了这些文件C:UsersFoolingsea_homeoutputoct06my_analysis

可以进行一步进行leading edge analysis分析,这个分析是基于run以后的结果进行的,需要找到生成的edb文件:

5f9217bdf862f5e6b7a8de41c6c185c4.png

GSEA富集分析后会根据基因的表达,算出相较于对照组,出现了明显改变的生物过程的变化:

264fc8b4f72cc51418deeaf1f62e967e.png

真正能够形成那个像山峰一样的图的过程是少数的,因为要满足一系列的参数要求,比如上面这个图里面的p-val、FDR q-val、FWER p-val等等值的要求,至少而言,标准化后的p值应该要<0.05,FDR q值应该<0.25,所以这两个值越小,其可靠性就越高。其中的p值表示t检验条件下统计出错的可能性,q值表示富集出现错误的可能性。

然后我们再随便选择一个EPITHELIAL_CELL_PROLIFERATION来看一下里面有什么:

57eee9f68a723df152ef2bd23a3b29a7.png

除了在网页版本里面有之外,这些数据都是可以在本地直接找到的,只不过样子可能有一些差别。

然后出现的富集结果还可以进行leading edge analysis分析,这些富集信息会暂时出现在列表中,如下图所示:

f64a297f563271381a66e351e820344f.png

注:上面的这些单个的富集信息是可以选中的,一个或者多个,然后再进行leading edge analysis分析,选中以后,点击右下角的run leading edge analysis,然后又可以得到一堆结果。

关闭软件,下次还想查看的话,就点击Analysis History,然后加载之前的分析历史:

f266939af64810851eb260f0c3a181ba.png

以上。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GSEA富集分析,1、准备三个文件第一行:#1.2,表示版本号,自己准备文件时照抄就行; 第二行:两个数分别表示gene NAME的数量和样本数量(矩阵列数-2); 矩阵:第一列是NAME;第二列Description,没有的话可以全用na或任意字符串填充;后面的就是基因在不同样本中标准化后的表达数据了 (部分统计量metrics for ranking genes计算需要log转换后的数据,后面会有提及。其它情况是否为log转换的数据都可用,GSEA关注的是差异,只要可比即可)。 #其次是样品分组信息(通常用.gmt作为后缀) 第一行:三个数分别表示:34个样品,2个分组,最后一个数字1是固定的; 第二行:以#开始,tab键分割,分组信息(有几个分组便写几个,多个分组在比较分析时,后面需要选择待比较的任意2组);(样品分组中NGT表示正常耐糖者,DMT表示糖尿病患者,自己使用时替换为自己的分组名字) 第三行:样本对应的组名。样本分组信息的第三行,同一组内的不同重复一定要命名为相同的名字,可以是分组的名字。例如相同处理的不同重复在自己试验记录里一般是Treat6h_1、Treat6h_2、Treat6h_3,但是在这里一定都要写成一样的值Treat6h。与表达矩阵的样品列按位置一一对应,名字相同的代表样品属于同一组。如果是样本分组信息,上图中的0和1也可以对应的写成NGT和DMT,更直观。但是,如果想把分组信息作为连续表型值对待,这里就只能提供数字。 3. 预定义基因集(gmx or gmt)——非必需文件(需要注意第一列的基因集名称必须是唯一的) 通常用.gmt作为后缀。若采用GSEA预定义的MSigDB数据库中的功能基因集分析,则无需自己定义该文件。每一行为一个功能基因集,第一列为基因集的名称,第二列为简单描述,第三列及以后列为该功能基因集所包含的基因symbol。基因集包含多少个基因,就列出多少个基因。文件以tab作为分隔符。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值