WGCNA
WGCNA (weighted correlation network analysis) 是一款基于R语言的加权关联网络分析软件,可以实现将基因表达变化与表型差异的关联,从而挖掘在表型变化过程中发挥关键作用的核心基因或基因模块 (moudle)。
WGCNA与其它类似分析软件的区别在于,其在构建基因共表达网络的过程中添加表型权重参数,同时使用无尺度聚类和动态剪切树的方式优化分类,以实现对数据准确、高效的分析。
分析的流程
WGCNA的分析原理及过程如下:
- 对数据进行预处理;
- 构建分层聚类;
- 将表达模式相似的基因组成模块;
- 研究某一个模块中相关基因的功能富集 (GO、KEGG);
- 计算各个模块与样本表型指标的相关性;
- 确定特定模块,分析其所包含基因间的相互作用网络关系;
- 寻找关键莫管中的关键基因。
分析要求
WGCNA基于不同样本间基因表达的相关性的构建共表达网络,因此,当样本数过低时,其相关性计算结果并不可靠,得到的共表达网络也并不准确。
进行WGCNA分析时,推荐的样本数如下:
- 当独立样本数≥8 (非重复样本) 时,可以考虑基于Pearson相关系数的WGCNA共表达网络的方法;
- 当样本数≥15 (可以包含生物学重复) 时,WGCNA会得到相对准确的结果。
当样品数<8时,不建议进行该项分析。
WGCNA的分析方法对于不同材料、处理或组织样本的研究更具意义,但并不适合分析同一处理的时间序列样本。
WGCNA分析内容
基因聚类分析
首先根据所测得的基因表达水平,计算各基因之间的共表达相关系数,随后使用欧式距离对基因进行聚类并绘制基因树,这种基因树的距离符合无尺度网络,更加遵循自然规律。
对构建好的基因树采用动态剪切的方式进行修剪,并对修剪后的基因树进行融合,获得基因模块,从而将对大量基因的分析转变为对少数基因模块的分析。
基因聚类树
表型相关性分析
引入研究所关注的表型性状进行加权分析,计算每个基因模块里所有基因与表型性状的相关性以及可信度,选择最相关和最显著的模块作为核心模块。
表型相关性
核心基因分析
在核心模块中,与其它基因关联度最高的基因即称为关键基因 (hub gene),根据核心模块内的基因共表达网络,与hub gene表达相近的基因作为核心基因。
WGCNA结果
共表达网络中的hub gene通常是转录因子等关键的调控因子,是需要优先深入分析和挖掘的对象。
在共表达网络中,如果连线一端的基因功能是已知的,那么就可以预测线条另一端的功能未知的基因也具有相似的功能。
基于以上结果,即可对发现的核心基因进行后续的实验验证其功能,同时WGCNA的分析结果可以应用Ctyoscape等软件进行可视化,从而得到漂亮的结果图。