论文Multivariateexamination of brain abnormality using both structural and functional MRI有提到皮尔森相关系数
文章有提到皮尔森系数,因此查阅相关资料做了以下整理:
公式如下:
Cov(X,Y)代表X与Y的协方差:
Var(X)和Var(Y)代表X和Y的方差
当相关性为1时,X与Y的关系可以表示为Y=aX+b(a>0)
当相关性为-1时,X与Y的关系可以表示为Y=aX+b(a<0)
如果X与Y相互独立,那么相关性为0,但有可能是其他方式的相关(比如曲线方式)
例如:
X: 1.1 1.9 3
Y: 5.0 10.4 14.6
E(X) =(1.1+1.9+3)/3=2
E(Y) =(5.0+10.4+14.6)/3=10
E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02
Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02
此外:还可以计算:
D(X)=E(X²)-E²(X)=(1.1²+1.9²+3²)/3- 4=4.60-4=0.6σx=0.77 (标准差)
D(Y)=E(Y²)-E²(Y)=(5²+10.4²+14.6²)/3-100=15.44 σy=3.93
X,Y的相关系数:
r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93)= 0.9979
表明这组数据X,Y之间相关性很好!
用matlab进行计算的时候,考虑了无偏估计和有偏估计,首先看看它们的区别
偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如上图第二行所示。
方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如上图右列所示。
为什么无偏方差在数学期望未知的情况下更准确?
解释1:
上面的这个公式表明,在数学期望未知的情况下,除非正好,否则我们一定有
分母换成,通过这种方法把原来的偏小的估计“放大”一点点,我们就能获得对方差的正确估计了
解释2:
而 (n-1)/n *σ²!=σ²,所以,为了避免使用有 bias的 estimator,我们通常使用它的修正值 S²:
【同样可以解释无偏标准差、有偏标准差】
P值在相关性计算的中的作用
P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。