独立性和条件独立性测试方法[1]
独立和条件独立定义:两个变量X, Z是独立的,其中P(Z=z)>0,有:
P ( X = x , Z = z ) = P ( X = x ) P ( Z = z ) P(X=x, Z=z)=P(X=x)P(Z=z) P(X=x,Z=z)=P(X=x)P(Z=z)
给定变量集合S,X和Z条件独立,记为 I n d ( X , Z ∣ S ) Ind(X,Z|S) Ind(X,Z∣S):
P ( X = x , Z = z ∣ S = s ) = P ( X = x ∣ S = s ) P ( Z = z ∣ S = s ) P(X=x, Z=z|S=s)=P(X=x|S=s)P(Z=z|S=s) P(X=x,Z=z∣S=s)=P(X=x∣S=s)P(Z=z∣S=s), 其中 P ( S = s ) > 0 P(S=s)>0 P(S=s)>0
方法1:Fisher’s z-Transform for Correlation and Partial Correlation
(1)独立性测试
给定一个包含n个样本的X,Y变量,皮尔森相关系数计算如下:
r = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 ∑ i = 1 n ( Y i − Y ˉ ) 2 r=\frac{\sum_{i=1}^{n}{(X_i-\bar X)(Y_i-\bar Y)}}{\sqrt{\sum_{i=1}^n{(X_i-\bar X)^2}}\sqrt{\sum_{i=1}^n{(Y_i-\bar Y)^2}}} r=∑i=1n(Xi−Xˉ)2∑i=1n(Yi−Yˉ)2∑i=1n(Xi−Xˉ)(Yi−Yˉ)
Fisher 的r-to-z transformation 其实是将皮尔森相关系数转化成具有正态分布的变量z,
z
∼
N
(
μ
z
,
σ
z
)
z\sim N(\mu_z,\sigma_z)
z∼N(μz,σz):
z
=
0.5
l
n
(
1
+
r
1
−
r
)
z = 0.5ln(\frac{1+r}{1-r})
z=0.5ln(1−r1+r)
and
μ
z
=
0.5
l
n
(
1
+
ρ
1
−
ρ
)
,
σ
z
=
1
n
−
3
\mu_z=0.5ln(\frac{1+\rho}{1-\rho}), \sigma_z = \frac{1}{\sqrt{n-3}}
μz=0.5ln(1−ρ1+ρ),σz=n−31
其中
ρ
\rho
ρ是总体皮尔森相关系数
PS总体皮尔森相关系数和样本皮尔森相关系数:
给定显著性水平
α
\alpha
α和皮尔森相关系数
r
r
r,X, Y相关需要满足以下条件:
z
n
−
3
>
ϕ
−
1
(
1
−
α
/
2
)
z\sqrt{n-3}>\phi^{-1}(1-\alpha/2)
zn−3>ϕ−1(1−α/2)
ϕ
\phi
ϕ表示标准正态分布函数
例:假如有一组包含100个样本的X,Y变量组,计算得出二者皮尔森相关系数为 0.4。在95%的置信水平下,有:
z
n
−
3
=
0.5
l
n
(
1
+
0.4
1
−
0.4
)
100
−
3
=
4.172458
z\sqrt{n-3}=0.5ln(\frac{1+0.4}{1-0.4})\sqrt{100-3}=4.172458
zn−3=0.5ln(1−0.41+0.4)100−3=4.172458
还有:
ϕ
−
1
(
1
−
α
/
2
)
=
ϕ
−
1
(
1
−
0.05
/
2
)
=
ϕ
−
1
(
0.975
)
=
1.959964
\phi^{-1}(1-\alpha/2)=\phi^{-1}(1-0.05/2)=\phi^{-1}(0.975)=1.959964
ϕ−1(1−α/2)=ϕ−1(1−0.05/2)=ϕ−1(0.975)=1.959964
因为前者4.172458大于后者1.959964,所以X和Y不独立(相关的)。
(2)条件独立性测试
给定变量集S情况下,X,Y的条件相关系数计算如下:
r
X
,
Y
∣
S
=
r
X
,
Y
∣
S
\
W
−
r
X
,
W
∣
S
\
W
r
Y
,
W
∣
S
\
W
(
1
−
r
X
,
W
∣
S
\
W
2
)
(
1
−
r
Y
,
W
∣
S
\
W
2
)
r_{X,Y|S}=\frac{r_{X,Y|S\backslash W}-r_{X,W|S\backslash W}r_{Y,W|S\backslash W}}{\sqrt{(1-r^2_{X,W|S\backslash W})(1-r^2_{Y,W|S\backslash W})}}
rX,Y∣S=(1−rX,W∣S\W2)(1−rY,W∣S\W2)rX,Y∣S\W−rX,W∣S\WrY,W∣S\W
其中W是变量集S的任意一个变量,
PS:论文[2]给出了一种计算 r X , Y ∣ S r_{X,Y|S} rX,Y∣S的高效算法。
给定显著性水平
α
\alpha
α,X和Y在给定变量集S的相关性需满足以下条件:
z
n
−
∣
S
∣
−
3
>
ϕ
−
1
(
1
−
α
/
2
)
z\sqrt{n-|S|-3}>\phi^{-1}(1-\alpha/2)
zn−∣S∣−3>ϕ−1(1−α/2)
其中 |S|表示变量集S的长度,且有:
z
=
0.5
l
n
(
1
+
r
X
,
Y
∣
S
1
−
r
X
,
Y
∣
S
)
z=0.5 ln(\frac{1+r_{X,Y|S}}{1-r_{X,Y|S}})
z=0.5ln(1−rX,Y∣S1+rX,Y∣S)
方法2: Chi-Square Test of Independence and Conditional Independence
(1)独立性检测
构建一个列联表,表示X,Z两个变量的联合频率分布。如下图:
n 11 , n 12 , n 21 , n 22 n_{11},n_{12},n_{21},n_{22} n11,n12,n21,n22分别表示 ( X = 1 , Z = 1 ) , ( X = 1 , Z = 0 ) , ( X = 0 , Z = 1 ) , ( X = 0 , Z = 0 ) (X=1,Z=1),(X=1,Z=0),(X=0,Z=1),(X=0,Z=0) (X=1,Z=1),(X=1,Z=0),(X=0,Z=1),(X=0,Z=0)的数量,称为观测频率; n 1 ∗ , n 2 ∗ , n ∗ 1 , n ∗ 2 n_{1*},n_{2*},n_{*1},n_{*2} n1∗,n2∗,n∗1,n∗2分别表示 X = 1 , X = 0 , Z = 1 , Z = 0 X=1,X=0,Z=1,Z=0 X=1,X=0,Z=1,Z=0的数量,称为边缘频率。
基于联合频率表,我们可以计算出卡方检验统计量:
χ
2
=
∑
i
=
1
i
=
2
∑
j
=
1
j
=
2
(
n
i
j
−
n
^
i
j
)
2
n
^
i
j
\chi^2=\sum_{i=1}^{i=2}\sum_{j=1}^{j=2}\frac{(n_{ij}-\hat{n}_{ij})^2}{\hat n_{ij}}
χ2=∑i=1i=2∑j=1j=2n^ij(nij−n^ij)2
其中
n
^
11
,
n
^
12
,
n
^
21
,
n
^
22
\hat{n}_{11},\hat n_{12},\hat n_{21},\hat n_{22}
n^11,n^12,n^21,n^22是期望频率,按照下式计算:
n
^
i
j
=
n
i
∗
n
∗
j
n
\hat n_{ij}=\frac{n_{i*}n_{*j}}{n}
n^ij=nni∗n∗j
给定置信水平 α \alpha α,可以查询卡方分布(自由度为)的值 χ α 2 \chi^2_\alpha χα2。如果计算出的卡方统计量大于 χ α 2 \chi^2_\alpha χα2,就拒绝零假设,两者在给定的置信水平下有相关关系。
(2)条件独立性
在条件独立性测试中,测试X和Z在给定变量集S的独立性,我们生成取变量集S每个值情况下的列联表。例如,如果S中只有一个变量W,然后我们给出W=1和W=0两个情况下的列联表,如下图:
条件独立测试中的卡方统计量是所有列联表卡方统计量的总和。例如,如果W=1的表的卡方值为1.7,W=0表的卡方值为0.9,所以最终的卡方统计量的值为1.7+0.9=2.6。类似于非条件独立测试,我们可以通过比较卡方统计量与 χ α 2 \chi^2_\alpha χα2来判断是否独立。但是需要注意的是,条件独立性测试时自由度为 2 ∣ S ∣ 2^{|S|} 2∣S∣,|S|是变量集S中的变量个数。
参考文献
[1] Practical approaches to causal relationship exploration. LI J,LIU L,LE T D. Springerbriefs in Electrical and Computer Engineering . 2015,LIU L,LE T D. Springerbriefs in Electrical and Computer Engineering . 2015
[2] J. Schaefer, R. Opgen-Rhein, and K. Strimmer. corpcor: Effificient estimation of covariance and (partial) correlation. R package version 1.5, 7, 2010.