建议查资料来源:
1、 微信搜索,很多公众号写的比较全
2、 CSDN代码解读比较好,相关小点也说的比较好。报错代码一部分也能查到。
3、 博客园
4、 简书
5、 谷歌
一、了解到底什么是WGCNA。
先通读了解相关概念。先不要去纠结代码。看最基础的概念就好,实在理解不了,那,那就算了叭,毕竟后面视频还是会讲的,逃不过的……但是WGCNA分析大概一个什么流程是的知道的。
加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。
相比于只关注差异表达的基因,WGCNA利用数千或近万个变化最大的基因或全部基因的信息识别感兴趣的基因集,并与表型进行显著性关联分析。一是充分利用了信息,二是把数千个基因与表型的关联转换为数个基因集与表型的关联,免去了多重假设检验校正的问题。
理解WGCNA,需要先理解下面几个术语和它们在WGCNA中的定义。
- 共表达网络:定义为加权基因网络。点代表基因,边代表基因表达相关性。加权是指对相关性值进行冥次运算(冥次的值也就是软阈值 (power, pickSoftThreshold这个函数所做的就是确定合适的power))。无向网络的边属性计算方式为
abs(cor(genex, geney)) ^ power
;有向网络的边属性计算方式为(1+cor(genex, geney)/2) ^ power
; sign hybrid的边属性计算方式为cor(genex, geney)^power if cor>0 else 0
。这种处理方式强化了强相关,弱化了弱相关或负相关,使得相关性数值更符合无标度网络
特征,更具有生物意义。如果没有合适的power,一般是由于部分样品与其它样品因为某种原因差别太大导致的,可根据具体问题移除部分样品或查看后面的经验值
。 - Module(模块):高度內连的基因集。在无向网络中,模块内是高度相关的基因。在有向网络中,模块内是高度正相关的基因。把基因聚类成模块后,可以对每个模块进行三个层次的分析:
1
. 功能富集分析查看其功能特征是否与研究目的相符;2
. 模块与性状进行关联分析,找出与关注性状相关度最高的模块;3
. 模块与样本进行关联分析,找到样品特异高表达的模块。
基因富集相关文章 去东方,最好用的在线GO富集分析工具;GO、GSEA富集分析一网打进;GSEA富集分析-界面操作。其它关联后面都会提及。
- Connectivity (连接度):类似于网络中 “度” (degree)的概念。每个基因的连接度是与其相连的基因的
边属性之和
。 - Module eigengene E: 给定模型的第一主成分,代表整个模型的基因表达谱。这个是个很巧妙的梳理,我们之前讲过PCA分析的降维作用,之前主要是拿来做可视化,现在用到这个地方,很好的用一个向量代替了一个矩阵,方便后期计算。(降维除了PCA,还可以看看tSNE)
- Intramodular connectivity: 给定基因与给定模型内其他基因的关联度,判断基因所属关系。
- Module membership: 给定基因表达谱与给定模型的eigengene的相