DS定理在ICA上有着很重要的作用:
独立成分分析FastICA算法原理
本文给出了DS定理的证明。
引理1 设
f
1
,
.
.
.
,
f
N
\displaystyle f_{1} ,...,f_{N}
f1,...,fN可导,并且
f
1
(
a
1
x
+
b
1
y
)
+
f
2
(
a
2
x
+
b
2
y
)
⋯
+
f
N
(
a
N
x
+
b
N
y
)
=
A
(
x
)
+
B
(
y
)
∀
x
,
y
f_{1} (a_{1} x+b_{1} y)+f_{2} (a_{2} x+b_{2} y)\cdots +f_{N} (a_{N} x+b_{N} y)=A(x)+B(y)\ \ \forall x,y
f1(a1x+b1y)+f2(a2x+b2y)⋯+fN(aNx+bNy)=A(x)+B(y) ∀x,y
其中
a
1
.
.
.
a
N
,
b
1
,
.
.
.
,
b
N
\displaystyle a_{1} ...a_{N} ,b_{1} ,...,b_{N}
a1...aN,b1,...,bN是非0常数,而且满足:
a i b j − a j b i ≠ 0 , ∀ i ≠ j a_{i} b_{j} -a_{j} b_{i} \neq 0,\forall i\neq j aibj−ajbi=0,∀i=j
则所有函数 f i \displaystyle f_{i} fi一定是多项式且最多只有N阶。
证明:
我们考虑第N个函数,显然,肯定存在一个变换
x ← x + δ 1 ( 1 ) y ← y + δ 2 ( 1 ) \left. \begin{array}{ c } x\leftarrow x+\delta ^{(1)}_{1}\\ y\leftarrow y+\delta ^{(1)}_{2} \end{array}\right. x←x+δ1(1)y←y+δ2(1)
使得 a N x + b N y \displaystyle a_{N} x+b_{N} y aNx+bNy的值不变,也就是说
a N x + b N y = a N x + a N δ 1 ( 1 ) + b N y + b N δ 2 ( 1 ) a_{N} x+b_{N} y=a_{N} x+a_{N} \delta ^{(1)}_{1} +b_{N} y+b_{N} \delta ^{(1)}_{2} aNx+bNy=aNx+aNδ1(1)+bNy+bNδ2(1)
这意味着
a N δ 1 ( 1 ) + b N δ 2 ( 1 ) = 0 a_{N} \delta ^{(1)}_{1} +b_{N} \delta ^{(1)}_{2} =0 aNδ1(1)+bNδ2(1)=0
而对于其他的项,因为 a i b j − a j b i ≠ 0 \displaystyle a_{i} b_{j} -a_{j} b_{i} \neq 0 aibj−ajbi=0那么他们一定是会发生变化的,即 f i ( a i ( x + δ 1 ( 1 ) ) + b i ( y + δ y ( 1 ) ) ) − f i ( a i x + b i y ) = ϵ > 0 \displaystyle f_{i}\left( a_{i}\left( x+\delta ^{(1)}_{1}\right) +b_{i}\left( y+\delta ^{(1)}_{y}\right)\right) -f_{i}( a_{i} x+b_{i} y) =\epsilon >0 fi(ai(x+δ1(1))+bi(y+δy(1)))−fi(aix+biy)=ϵ>0。为什么呢?可以想象一下,不变化的条件是什么?如果要不变化,那么其他项的系数一定要满足:
a N δ 1 ( 1 ) + b N δ 2 ( 1 ) = 0 a i δ 1 ( 1 ) + b i δ 2 ( 1 ) = 0 a_{N} \delta ^{(1)}_{1} +b_{N} \delta ^{(1)}_{2} =0\\ a_{i} \delta ^{(1)}_{1} +b_{i} \delta ^{(1)}_{2} =0 aNδ1(1)+bNδ2(1)=0aiδ1(1)+biδ2(1)=0
换句话说:
a N δ 1 ( 1 ) + b N δ 2 ( 1 ) = 0 a i δ 1 ( 1 ) + b i δ 2 ( 1 ) = 0 ⟹ a N b N = a i b i = δ 1 ( 1 ) δ 2 ( 1 ) a_{N} \delta ^{(1)}_{1} +b_{N} \delta ^{(1)}_{2} =0\\ a_{i} \delta ^{(1)}_{1} +b_{i} \delta ^{(1)}_{2} =0\\ \Longrightarrow \frac{a_{N}}{b_{N}} =\frac{a_{i}}{b_{i}} =\frac{\delta ^{(1)}_{1}}{\delta ^{(1)}_{2}} aNδ1(1)+bNδ2(1)=0aiδ1(1)+biδ2(1)=0⟹bNaN=biai=δ2(1)δ1(1)
然后这是不可能的,因为 a i b j − a j b i ≠ 0 \displaystyle a_{i} b_{j} -a_{j} b_{i} \neq 0 aibj−ajbi=0.
因此,进行一阶差分,我们可以得到:
Δ ϵ 1 ( 1 ) f 1 ( a 1 x + b 1 y ) + Δ ϵ 2 ( 1 ) f 2 ( a 2 x + b 2 y ) ⋯ + Δ ϵ N − 1 ( 1 ) f N − 1 ( a N − 1 x + b N − 1 y ) = A 1 ( x ) + B 1 ( y ) ∀ x , y \left. \begin{array}{ c } \Delta _{\epsilon ^{(1)}_{1}} f_{1} (a_{1} x+b_{1} y)+\Delta _{\epsilon ^{(1)}_{2}} f_{2} (a_{2} x+b_{2} y)\cdots +\Delta _{\epsilon ^{(1)}_{N-1}} f_{N-1} (a_{N-1} x+b_{N-1} y)\\ =A_{1} (x)+B_{1} (y)\ \ \forall x,y \end{array}\right. Δϵ1(1)f1(a1x+b1y)+Δϵ2(1)f2(a2x+b2y)⋯+ΔϵN−1(1)fN−1(aN−1x+bN−1y)=A1(x)+B1(y) ∀x,y
其中
Δ h f ( x ) = f ( x + h ) − f ( x ) \Delta _{h} f(x)=f( x+h) -f( x) Δhf(x)=f(x+h)−f(x)
比如,对于
Δ ϵ 1 ( 1 ) f 1 ( a 1 x + b 1 y ) = f 1 ( a 1 x + b 1 y + a 1 δ 1 ( 1 ) + b 1 δ 2 ( 1 ) ⏟ ϵ 1 ( 1 ) ) − f 1 ( a 1 x + b 1 y ) \Delta _{\epsilon ^{(1)}_{1}} f_{1} (a_{1} x+b_{1} y)=f_{1} (a_{1} x+b_{1} y+\underbrace{a_{1} \delta ^{(1)}_{1} +b_{1} \delta ^{(1)}_{2}}_{\epsilon ^{(1)}_{1}} )-f_{1}( a_{1} x+b_{1} y) Δϵ1(1)f1(a1x+b1y)=f1(a1x+b1y+ϵ1(1) a1δ1(1)+b1δ2(1))−f1(a1x+b1y)
注意到,显然第N项消失了,类似地,我们对N-1项做一次二阶差分,那么N-1项也会消失,直到
Δ ϵ 1 ( N − 1 ) . . . Δ ϵ 1 ( 2 ) Δ ϵ 1 ( 1 ) f 1 ( a 1 x + b 1 y ) = A N − 1 ( x ) + B N − 1 ( y ) \Delta _{\epsilon ^{(N-1)}_{1}} ...\Delta _{\epsilon ^{(2)}_{1}} \Delta _{\epsilon ^{(1)}_{1}} f_{1} (a_{1} x+b_{1} y)=A_{N-1} (x)+B_{N-1} (y)\ Δϵ1(N−1)...Δϵ1(2)Δϵ1(1)f1(a1x+b1y)=AN−1(x)+BN−1(y)
接来下,我们分别令x变,y不变,做一次差分:
Δ ϵ 1 ( N ) Δ ϵ 1 ( N − 1 ) . . . Δ ϵ 1 ( 2 ) Δ ϵ 1 ( 1 ) f 1 ( a 1 x + b 1 y ) = A N ( x ) \Delta _{\epsilon ^{(N)}_{1}} \Delta _{\epsilon ^{(N-1)}_{1}} ...\Delta _{\epsilon ^{(2)}_{1}} \Delta _{\epsilon ^{(1)}_{1}} f_{1} (a_{1} x+b_{1} y)=A_{N} (x) Δϵ1(N)Δϵ1(N−1)...Δϵ1(2)Δϵ1(1)f1(a1x+b1y)=AN(x)
然后令x不变y边做一次差分
Δ ϵ 1 ( N + 1 ) Δ ϵ 1 ( N ) Δ ϵ 1 ( N − 1 ) . . . Δ ϵ 1 ( 2 ) Δ ϵ 1 ( 1 ) f 1 ( a 1 x + b 1 y ) = 0 \Delta _{\epsilon ^{(N+1)}_{1}} \Delta _{\epsilon ^{(N)}_{1}} \Delta _{\epsilon ^{(N-1)}_{1}} ...\Delta _{\epsilon ^{(2)}_{1}} \Delta _{\epsilon ^{(1)}_{1}} f_{1} (a_{1} x+b_{1} y)=0 Δϵ1(N+1)Δϵ1(N)Δϵ1(N−1)...Δϵ1(2)Δϵ1(1)f1(a1x+b1y)=0
最终我们发现,对于任意的x,y,
f
1
\displaystyle f_{1}
f1在N+1次差分后变成了0(这等价于N+1次求导),这意味着
f
1
\displaystyle f_{1}
f1一定是一个多项式函数,而且最多只有
N
\displaystyle N
N阶.
证毕。
定理1说明了高斯分布只能由高斯分布相加产生,不可能存在其他分布。(这个与中心极限定理是有点“冲突”。不过实际上,当相加的分布是有限的时候,这个定理是一定成立的)
第二个定理是说明了,如果特征函数满足指数项是多项式的时候,只有高斯分布的随机变量满足。也就是说,如果存在特征函数是
e
P
(
w
)
e^{P(w)}
eP(w)形式的变量,那
P
(
w
)
P(w)
P(w)一定是小于或等于2阶多项式。
最后就是我们要证明的DS定理了。首先,对于那些 a i b i = 0 a_ib_i=0 aibi=0的项,我们是可以忽略的,因为这意味着 X i X_i Xi只出现在一边,所以并不会影响 Y Y Y的独立性。所以我们重点还是考虑 Y Y Y中的 a i b i ≠ 0 a_ib_i\ne0 aibi=0项。
证明:
首先,我们可以设
a
i
b
j
−
a
j
b
i
≠
0
→
a
i
a
j
≠
b
i
b
j
a_ib_j-a_jb_i\ne 0 \to \frac{a_i}{a_j}\ne \frac{b_i}{b_j}
aibj−ajbi=0→ajai=bjbi,换句话说,没有等比例的两个
X
i
,
X
j
X_i,X_j
Xi,Xj,如果有的话,我们完全可以把他们合并成一个随机变量,然后定义一个新的。(那如果这个新的变量是高斯分布,根据L´evy-Cramer定理,合并的这两个变量也是高斯的,所以这并不会影响我们的证明,尽管可以只能证出这个合并后的变量是高斯的,只要
a
b
≠
0
ab\ne 0
ab=0)
首先一个随机变量的特征函数可以写作
Φ X ( ω ) = E { e j ω X } \Phi _{X} (\omega )=E\{e^{j\omega X} \} ΦX(ω)=E{ejωX}
于是对于 Y 1 , Y 2 \displaystyle Y_{1} ,Y_{2} Y1,Y2的特征函数为,
Φ Y 1 , Y 2 ( ω 1 , ω 2 ) = E { e j ω 1 Y 1 + j ω 2 Y 2 } = E { e j ∑ i = 1 N ( ω 1 a i + b i ω 2 ) X i ) } = Φ X 1 ( a 1 ω 1 + b 1 ω 2 ) Φ X 2 ( a 2 ω 1 + b 2 ω 2 ) . . . Φ X N ( a N ω 1 + b N ω 2 ) \begin{aligned} \Phi _{Y_{1} ,Y_{2}} (\omega _{1} ,\omega _{2} ) & =E\left\{e^{j\omega _{1} Y_{1} +j\omega _{2} Y_{2}}\right\}\\ & =E\left\{e^{j\sum ^{N}_{i=1}( \omega _{1} a_{i} +b_{i} \omega _{2}) X_{i})}\right\}\\ & =\Phi _{X_{1}} (a_{1} \omega _{1} +b_{1} \omega _{2} )\Phi _{X_{2}} (a_{2} \omega _{1} +b_{2} \omega _{2} )...\Phi _{X_{N}} (a_{N} \omega _{1} +b_{N} \omega _{2} ) \end{aligned} ΦY1,Y2(ω1,ω2)=E{ejω1Y1+jω2Y2}=E{ej∑i=1N(ω1ai+biω2)Xi)}=ΦX1(a1ω1+b1ω2)ΦX2(a2ω1+b2ω2)...ΦXN(aNω1+bNω2)
最后一个等式是因为 X \displaystyle X X是相互独立的,所以他们的特征函数可以分解。然后又因为 Y 1 , Y 2 \displaystyle Y_{1} ,Y_{2} Y1,Y2是独立的,所以
Φ Y 1 , Y 2 ( ω 1 , ω 2 ) = Φ Y 1 ( ω 1 ) Φ Y 2 ( ω 2 ) \Phi _{Y_{1} ,Y_{2}} (\omega _{1} ,\omega _{2} )=\Phi _{Y_{1}} (\omega _{1} )\Phi _{Y_{2}} (\omega _{2} ) ΦY1,Y2(ω1,ω2)=ΦY1(ω1)ΦY2(ω2)
于是
Φ X 1 ( a 1 ω 1 + b 1 ω 2 ) Φ X 2 ( a 2 ω 1 + b 2 ω 2 ) . . . Φ X N ( a N ω 1 + b N ω 2 ) = Φ Y 1 ( ω 1 ) Φ Y 2 ( ω 2 ) \Phi _{X_{1}} (a_{1} \omega _{1} +b_{1} \omega _{2} )\Phi _{X_{2}} (a_{2} \omega _{1} +b_{2} \omega _{2} )...\Phi _{X_{N}} (a_{N} \omega _{1} +b_{N} \omega _{2} )=\Phi _{Y_{1}} (\omega _{1} )\Phi _{Y_{2}} (\omega _{2} ) ΦX1(a1ω1+b1ω2)ΦX2(a2ω1+b2ω2)...ΦXN(aNω1+bNω2)=ΦY1(ω1)ΦY2(ω2)
两边取log
ψ X 1 ( a 1 ω 1 + b 1 ω 2 ) + ψ X 2 ( a 2 ω 1 + b 2 ω 2 ) + . . . + ψ X N ( a N ω 1 + b N ω 2 ) = ψ Y 1 ( ω 1 ) + ψ Y 2 ( ω 2 ) \psi _{X_{1}} (a_{1} \omega _{1} +b_{1} \omega _{2} )+\psi _{X_{2}} (a_{2} \omega _{1} +b_{2} \omega _{2} )+...+\psi _{X_{N}} (a_{N} \omega _{1} +b_{N} \omega _{2} )=\psi _{Y_{1}} (\omega _{1} )+\psi _{Y_{2}} (\omega _{2} ) ψX1(a1ω1+b1ω2)+ψX2(a2ω1+b2ω2)+...+ψXN(aNω1+bNω2)=ψY1(ω1)+ψY2(ω2)
这个就是我们的引理1了,根据引理1, ψ X i \displaystyle \psi _{X_{i}} ψXi, ψ X j \displaystyle \psi _{X_{j}} ψXj一定是一个多项式函数,根据Marcinkiewics-Dugue定理, X i , X j \displaystyle X_{i} ,X_{j} Xi,Xj一定是高斯分布(因为他取了log之后是多项式,所以其指数项是多项式)
我们可以总结一下,只要存在
a
i
b
i
≠
0
\displaystyle a_{i} b_{i} \neq 0
aibi=0的项,
X
i
\displaystyle X_{i}
Xi一定是高斯分布。
证毕。