导读:
相关系数衡量两个变量之间的线性关系,通常以N*N的矩阵形式展示。例如样品vs样品,或者基因vs基因的相关性。本文介绍了使用corrplot R包绘制M*N的相关系数矩阵,例如M个基因表达与N个代谢物信号间的相关性,同时带上p值显著性标注。
Diabetes, Metabolic Syndrome and Obesity文章《Dysbiosis of the Salivary Microbiome is Associated with Hypertension and Correlated with Metabolic Syndrome Biomarkers》fig 9 展示了不同微生物与生化、表型特征间的相关系数。图中X轴为不同的微生物,Y轴为不同的血浆生化指标或人口统计特征。图中的点表示spearman相关系数,红色点表示负相关,绿色点表示正相关。红色点越大,表示负相关越大;绿色点越大,表示正相关越大。点上的星号(*)表示p值。***: p<=0.001, **: p<=0.01,*:p<=0.05。从图中可以看出,收缩压(Systolic BP)、舒张压(Diastolic BP)、葡萄糖(Glucose)等指标与众多微生物正相关,且显著。而乳制品摄入(Dairy_intake)、胰岛素(insulin)、吸烟(Smoking)等与微生物相关性不显著。
相关系数简介
相关系数(correlation coefficient)是一个介于-1和1之间的数,用于衡量两个变量之间的线性关系。如果两个变量之间的变化趋势是一致的,即一个变量增加时另一个也增加,那么它们之间的相关系数为正;如果一个变量增加而另一个减少,则相关系数为负。接近1的相关系数表示强正相关。接近-1的相关系数表示强负相关。接近0的相关系数表示两个变量之间没有或几乎没有线性关系。
常见的相关系数包括:
- 皮尔逊相关系数(Pearson correlation coefficient):适用于测量两个连续变量之间的线性相关性
- 斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient):适用于测量两个变量的等级(或排序)之间的相关性,不要求数据是线性的
Spearman相关系数更适用于非线性关系和不满足正态分布的数据,适用于评估变量之间的顺序关系;而Pearson相关系数适用于线性相关性和正态分布的数据,用于评估两个连续变量之间的线性关系程度。
注意:相关系数只能告诉我们变量之间是否存在线性关系,以及这种关系的强度和方向,但它不能告诉我们这种关系的原因或机制。此外,相关系数对异常值比较敏感。
1,打开作图URL
2,示例数据
点击图片上方的示例数据,下载,并使用excel打开。
示例数据包括2个矩阵:
矩阵1:mRNA表达矩阵。行是样品,列是基因。交叉的cell为标准化表达值。
矩阵2:代谢物信号强度矩阵。行是样品(与表达矩阵完全一样,包括顺序),列是代谢物。交叉的cell为标准化信号强度。
注意:这里计算的是矩阵1的列元素和矩阵2的列元素间的相关性。它们的列数可以相同(N*N矩阵),也可以不同(N*M矩阵)。当然,两个矩阵也可以完全一样(即最常见的相关系数矩阵)。
3,输入检查
示例数据:点击输入框下面的“示例”按钮,将载入示例数据。
真实数据:数据放在excel中,调整好后,Ctrl+A选中数据,Ctrl+C拷贝,Ctrl+V粘贴数据到输入框中。
然后使用输入框下面的“输入检查”按钮先对输入数据进行检查。若检查不通过,请根据检查提示重复【修改-输入检查】步骤,直到检查通过(如下图所示),然后可以继续选择参数。
注:输入检查是新加功能,它会根据不同模块的输入要求,逐行逐列检查输入数据,并给出提示,确保数据符合模块要求。
4,选择参数
图片大小:包括图片宽度,图片高度。图片不易过小,太小的话,文字有可能被截断,此时可以使用acrobat illustrator或者inkscape软件编辑pdf/svg文件调整
相关系数计算方法:Pearson或者Spearman
图形:绘图时每个小矩形里边的图形形状。包括圆形,正方形,椭圆形,阴影(负的值加阴影),颜色(完全填充的颜色矩形),饼图(见文档最后)。
布局:矩阵形式,上三角或者下三角(见文档最后)
颜色:低、中、高三种颜色。若低=中,或者中=高时,仅两种颜色
Colorbar数值范围:留空则默认。填写的话则根据所填数值限定colorbar的范围,但是所填数值必须完全覆盖原始范围,否则还是默认。例如若实际范围是-0.4到0.5,那么可以填写-0.5,0.5,但是填写-0.4,0.4则还是会自动转成-0.4到0.5。
Colorbar的字体大小
行列名字:字体大小,颜色
显著性标注:默认是0.001,0.01,0.05,对应***:p<=0.001,**:p<=0.01,*:p<=0.05
显著性标注字符:默认是*,也可以使用其他符号,例如+
显著性标注字体大小,颜色
是否根据相关性排序:默认按照输入的顺序绘图,若要根据相关性进行聚类(根据相关性进行层次聚类),则可以选择排序,并可以选择添加黑色矩形边框,以达到突出显示的效果。必需是1-4。1就是整个矩阵添加一个边框。注意:排序选项仅支持N*N的矩阵(见文档最后)
是否显示对角线:针对N*N矩阵,可以选择不显示对角线都是1的相关系数。
字体:设置了期刊杂志中最常用的两种:Times New Roman和Arial。如需使用其他字体,可以使用acrobat illustrator编辑生成的pdf或者svg图片
5,提交出图
检查通过,并且参数选好后,点击“提交”按钮,约2s后,会在页面上显示带p值显著性标注的相关系数矩阵图。我们提供了pdf、svg两种矢量图,png、tiff两种标量图供大家下载使用。可以使用acrobat illustrator等软件编辑矢量图,进行组图,调整字体等操作,以满足论文要求。
同时提供了计算结果,相关系数矩阵,p值矩阵。
也可以绘制其他样式的图。例如:
微生信助力高分文章,用户200000+,谷歌学术3900