基因集富集分析(Gene Set Enrichment Analysis,GSEA)是麻省理工学院和哈佛大学的broad institute研究团队开发的一个针对全基因组表达谱芯片数据进行分析的工具。基本思想是使用预定义的基因集,将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。基因集合富集分析检测基因集合而不是单个基因的表达变化,因此可以包含这些细微的表达变化,预期得到更为理想的结果。
GSEA富集过程包括三步骤:
1.计算富集分数(Enrichment Score);
2.估计富集分数的显著性水平;
3.矫正多重假设检验。
那今天,我们就来主要讲讲GSEA富集分析的操作,和结果解释吧~
首先注册GSEA
(http://software.broadinstitute.org/gsea/register.jsp)
直接通过邮箱进行注册,十分方便快捷。
然后,再下载一个GSEA软件
(http://software.broadinstitute.org/gsea/login.jsp;jsessionid=F71E86DCBFB4F9CBED84C0495E5B02A7)
用刚才注册的箱邮登录,我们就可以直接选择符合自已电脑的版本进行下载
好了,有了GSEA,还得保证你有个够格java环境(http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html)
下载java,选择适合自己电脑的版本
做好一切准备功夫,我们就开始使用GSEA!
制作输入表格
一个gct文件,后缀后是gct,可先在excel做好,然后复制到记事本中(推荐sublime或notepat ),另存为gct后缀的文件
一个分组文件cls
“9 3 1”代表着9个样品,分为3组,1是默认值,以空格或tab分开
第二行是分组信息
第三行与gct文件中的样品对应,分属哪个组
做好这两个文件后,开始使用GESA了
选择你自已的GSEA版本,如果java环境装好的话,就可以运行了
加载之前做好的两个文件
出现no errors 就行了
1.选择表达矩阵
2.富集背景,这里只选了KEGG和GO
3. Number of permutations这里最多可以选择1000次(次数越多结果相对越可靠,但是占用CPU越多,我这里选的是 1000,如果你电脑支持不了就调小一些,别勉强喔~)
4.选择比较组
5.每组样品都有多于7个样品,则Permutation type选择phenotype,结果理论上更好;否则选择gene_set(这里选的是gene_set.)
6. chip平台,这里用的Ensemb mmu的数据
7.选择输出结果的路径
填好所有信息之后,结果好了在右边会显示success,点击Success可以直接显示结果
这样富集分析就成了~
对于富集分析的结果是如何分析的,大家可以关注明天的内容喔~
编辑:咸鱼君
无损读文献
无伤看干货
这里有逗比的科研老司机
车票不要998,也不要888,只要666
谈笑间,带你走遍科研的雄山峻岭
赛哲生物︱成就创业与创新梦想