A: ClueGO:破译富集GO和通路
大多数的富集工具都是以列表和复杂等级树显示。Cluoego可视化归纳相似的过程或通路。主要是GO和KEGG ,并且作者可以设置自己的阈值动态改变网络。
Cluego有两个主要的特征:1.根据基因列表,可以用于terms的可视化,2,两个clusters的功能解释的比较。
具体的步骤方法
1 数据输入
基因标识数据集可以以简单的text文本文档上传,也可以来于cytoscape的基因网络图。cluego支持几种基因标识符和物种。并且可以扩展。
2 注释来源
为了快速分析,cluegeo使用预先编辑好的文件,包括GO,KEGG和BIocarta并且物种很广泛。一键就可以自动下载最新的ontology和注释源。并且可以把预先编辑好的网络添加到已经存在的上面。这保证最新的功能分析。另外,cluego可以容易的整合新的注释源到其他插件。
3 富集tests
cluego提供了计算terms和groups富集和缺失的可能型。左边富集右边缺失,或这双边(富集和缺失),这都基于超几何分布。另外,他也提供选择计算mid-p值。为了矫正多重检验p值,几种标准化的矫正方法可以选择(本家名,等)
4 网络生成和可视化
为了生成注释网络,cluego提供预先丁一的功能分析集,从general到非常具体的。另外,用户可以调整分析参数来更集中terms,例如,在某一个GO水平,有特殊的证据codes或有某数目和百分比的相关基因。一个可选择的冗余减少特征(融合)以父子关系条目评估GO条目,这会共享相似的相关基因并且保留代表性的父或子条目。选择的条目间的的关系根据他们共享的基因定义。cluego首先生存一个双向基因条目矩阵,条目-条目相似性矩阵会使用chance矫正kappa统计学进行计算,以此决定条目之间的相似强度。以in我这个条目条目矩阵有来源,kappa统计就成了最适合的方法。最后,产生的网络用node代表条目,这个条目已经根据kappa得分进行了预先设定。kappa得分阈值可可以被初始设定,从0到1,这可以以用户设定的方式限制网络的连接。nodes的大小反映了term富集的重要性。并且,网络以cytoscape支持的organic输出方式进行展示,这是基于一定几何算法的。根据预先设定的组别,功能组可以被不断的富集merge,当然都是基于kappa算法阈值。最后的groups被固定并且随机颜色。功能groups代表重要的条目,可以可视化,并且可以看出他们之间的关系。选择组中的领头条目,基于提供的每个term的gene百分比。作为kappa得分分组的替代,GO等级使用父子关系条目可以用来产生富集组别。
当比较2个基因聚类时,cluege另一个原始的功能可以调整可视化,除了网络,cluego提供总括表,可以显示组别和他的领头条目,直方图,聚类和普通条目像bingo,cluego可以和golorize合并产生记忆in网络。产生的网络,图和分析结果可以保存为项目进一步进行分析
case study
例子是GSE6887,我们选择健康志愿者上调和下调的NK 细胞基因。对于上调的NKgene,cluego显示“natural killer cell mediated cytotoxicity”在这个组:cellular defense response,而下调的NK细胞基因参与innate immune response,还有adaptive immune response。共有的功能指向leukocytes的特点,另外还有一些条目参与cell division和metabolism。
image.png
功能组网络结果,term作为nodes出现,基于的是kappa得分(》=0.3).每组只有最显著的条目标签显示出来。功能相关的组部分重叠。没有归到组里的条目白色显示。
image.png
bars代表和某个term相关的gene数目,就是bar右边的数字。每个term的基因百分比作为bar label显示,也就是横轴数字。
image.png
所用数据的功能groups的总图。是合并之后的子图的名字。
B: Cluepedia
cluepedia可以分析自己的实验数据,可以直接比较和富集公用数据。比如来自string,intact,mimi,mirbase,mirecords等。通路分析基于go和kegg,reactome和其他数据源。上传数据的方式很多种
1文本文档
2粘贴
3来自网络。插件可以自动识别很多类型的基因,蛋白,miRNA,可以用最新的NCBI信息更新。
Cluepedia来自任何老鼠相互数据。安装后,超过20种其他物种数据可以下载,这些数据已经编辑好了。插件可以计算来自实验数据感兴趣的基因的统计学相关性,并且提供的四种检验参数有线性的有非线性的。有皮尔逊相关系数,斯皮尔曼rank,距离系数和最近描述的maximal information 系(MIC).这些检验可同时或单独使用分析整个输入文件比如affymetrix datasets,选择markersVs整个数据集或选定自己的markers。结果恩杰添加到cluepedia进一步分析。实验数据可以被标准化并且可视化使用临近阈值。过滤的方法是基于表达水平,标准差和缺失值。另外一个特征是允许抽取表达数据的子集,这些子集相应于一个pathway或term。
网络可以根据最高相互得分富集,可以对所有也可以对选定的nodes。另外,网络可以被富集,用有最高连接度的hub基因,而这个hub基因连接的所有选定的nodes。不同的边得分类型可以用于富集,并且这个网络可以更新,用的是最高得分的相互关系,而他符合所有的阈值标准。重要的是,这个富集结果可以用Cluego网络使用,新富集的基因会被自动假如。cluepedia可以自动提取go term中marker的细胞为止。基于这些信息,类似pathway-like的细胞祖坟可以产生,这要使用cerebral plugin layout。如果有一些marker并没有细胞位置,那么他们会被归纳到没有注释被发现的未知。