Darmois-Skitovic定理证明

DS定理在ICA上有着很重要的作用:
独立成分分析FastICA算法原理
本文给出了DS定理的证明。

引理1 设 f 1 , . . . , f N \displaystyle f_{1} ,...,f_{N} f1,...,fN可导,并且
f 1 ( a 1 x + b 1 y ) + f 2 ( a 2 x + b 2 y ) ⋯ + f N ( a N x + b N y ) = A ( x ) + B ( y )    ∀ x , y f_{1} (a_{1} x+b_{1} y)+f_{2} (a_{2} x+b_{2} y)\cdots +f_{N} (a_{N} x+b_{N} y)=A(x)+B(y)\ \ \forall x,y f1(a1x+b1y)+f2(a2x+b2y)+fN(aNx+bNy)=A(x)+B(y)  x,y
其中 a 1 . . . a N , b 1 , . . . , b N \displaystyle a_{1} ...a_{N} ,b_{1} ,...,b_{N} a1...aN,b1,...,bN是非0常数,而且满足:

a i b j − a j b i ≠ 0 , ∀ i ≠ j a_{i} b_{j} -a_{j} b_{i} \neq 0,\forall i\neq j aibjajbi=0,i=j

则所有函数 f i \displaystyle f_{i} fi一定是多项式且最多只有N阶。

证明
我们考虑第N个函数,显然,肯定存在一个变换

x ← x + δ 1 ( 1 ) y ← y + δ 2 ( 1 ) \left. \begin{array}{ c } x\leftarrow x+\delta ^{(1)}_{1}\\ y\leftarrow y+\delta ^{(1)}_{2} \end{array}\right. xx+δ1(1)yy+δ2(1)

使得 a N x + b N y \displaystyle a_{N} x+b_{N} y aNx+bNy的值不变,也就是说

a N x + b N y = a N x + a N δ 1 ( 1 ) + b N y + b N δ 2 ( 1 ) a_{N} x+b_{N} y=a_{N} x+a_{N} \delta ^{(1)}_{1} +b_{N} y+b_{N} \delta ^{(1)}_{2} aNx+bNy=aNx+aNδ1(1)+bNy+bNδ2(1)

这意味着

a N δ 1 ( 1 ) + b N δ 2 ( 1 ) = 0 a_{N} \delta ^{(1)}_{1} +b_{N} \delta ^{(1)}_{2} =0 aNδ1(1)+bNδ2(1)=0

而对于其他的项,因为 a i b j − a j b i ≠ 0 \displaystyle a_{i} b_{j} -a_{j} b_{i} \neq 0 aibjajbi=0那么他们一定是会发生变化的,即 f i ( a i ( x + δ 1 ( 1 ) ) + b i ( y + δ y ( 1 ) ) ) − f i ( a i x + b i y ) = ϵ > 0 \displaystyle f_{i}\left( a_{i}\left( x+\delta ^{(1)}_{1}\right) +b_{i}\left( y+\delta ^{(1)}_{y}\right)\right) -f_{i}( a_{i} x+b_{i} y) =\epsilon >0 fi(ai(x+δ1(1))+bi(y+δy(1)))fi(aix+biy)=ϵ>0。为什么呢?可以想象一下,不变化的条件是什么?如果要不变化,那么其他项的系数一定要满足:

a N δ 1 ( 1 ) + b N δ 2 ( 1 ) = 0 a i δ 1 ( 1 ) + b i δ 2 ( 1 ) = 0 a_{N} \delta ^{(1)}_{1} +b_{N} \delta ^{(1)}_{2} =0\\ a_{i} \delta ^{(1)}_{1} +b_{i} \delta ^{(1)}_{2} =0 aNδ1(1)+bNδ2(1)=0aiδ1(1)+biδ2(1)=0

换句话说:

a N δ 1 ( 1 ) + b N δ 2 ( 1 ) = 0 a i δ 1 ( 1 ) + b i δ 2 ( 1 ) = 0 ⟹ a N b N = a i b i = δ 1 ( 1 ) δ 2 ( 1 ) a_{N} \delta ^{(1)}_{1} +b_{N} \delta ^{(1)}_{2} =0\\ a_{i} \delta ^{(1)}_{1} +b_{i} \delta ^{(1)}_{2} =0\\ \Longrightarrow \frac{a_{N}}{b_{N}} =\frac{a_{i}}{b_{i}} =\frac{\delta ^{(1)}_{1}}{\delta ^{(1)}_{2}} aNδ1(1)+bNδ2(1)=0aiδ1(1)+biδ2(1)=0bNaN=biai=δ2(1)δ1(1)

然后这是不可能的,因为 a i b j − a j b i ≠ 0 \displaystyle a_{i} b_{j} -a_{j} b_{i} \neq 0 aibjajbi=0.

因此,进行一阶差分,我们可以得到:

Δ ϵ 1 ( 1 ) f 1 ( a 1 x + b 1 y ) + Δ ϵ 2 ( 1 ) f 2 ( a 2 x + b 2 y ) ⋯ + Δ ϵ N − 1 ( 1 ) f N − 1 ( a N − 1 x + b N − 1 y ) = A 1 ( x ) + B 1 ( y )    ∀ x , y \left. \begin{array}{ c } \Delta _{\epsilon ^{(1)}_{1}} f_{1} (a_{1} x+b_{1} y)+\Delta _{\epsilon ^{(1)}_{2}} f_{2} (a_{2} x+b_{2} y)\cdots +\Delta _{\epsilon ^{(1)}_{N-1}} f_{N-1} (a_{N-1} x+b_{N-1} y)\\ =A_{1} (x)+B_{1} (y)\ \ \forall x,y \end{array}\right. Δϵ1(1)f1(a1x+b1y)+Δϵ2(1)f2(a2x+b2y)+ΔϵN1(1)fN1(aN1x+bN1y)=A1(x)+B1(y)  x,y

其中

Δ h f ( x ) = f ( x + h ) − f ( x ) \Delta _{h} f(x)=f( x+h) -f( x) Δhf(x)=f(x+h)f(x)

比如,对于

Δ ϵ 1 ( 1 ) f 1 ( a 1 x + b 1 y ) = f 1 ( a 1 x + b 1 y + a 1 δ 1 ( 1 ) + b 1 δ 2 ( 1 ) ⏟ ϵ 1 ( 1 ) ) − f 1 ( a 1 x + b 1 y ) \Delta _{\epsilon ^{(1)}_{1}} f_{1} (a_{1} x+b_{1} y)=f_{1} (a_{1} x+b_{1} y+\underbrace{a_{1} \delta ^{(1)}_{1} +b_{1} \delta ^{(1)}_{2}}_{\epsilon ^{(1)}_{1}} )-f_{1}( a_{1} x+b_{1} y) Δϵ1(1)f1(a1x+b1y)=f1(a1x+b1y+ϵ1(1) a1δ1(1)+b1δ2(1))f1(a1x+b1y)

注意到,显然第N项消失了,类似地,我们对N-1项做一次二阶差分,那么N-1项也会消失,直到

Δ ϵ 1 ( N − 1 ) . . . Δ ϵ 1 ( 2 ) Δ ϵ 1 ( 1 ) f 1 ( a 1 x + b 1 y ) = A N − 1 ( x ) + B N − 1 ( y )   \Delta _{\epsilon ^{(N-1)}_{1}} ...\Delta _{\epsilon ^{(2)}_{1}} \Delta _{\epsilon ^{(1)}_{1}} f_{1} (a_{1} x+b_{1} y)=A_{N-1} (x)+B_{N-1} (y)\ Δϵ1(N1)...Δϵ1(2)Δϵ1(1)f1(a1x+b1y)=AN1(x)+BN1(y) 

接来下,我们分别令x变,y不变,做一次差分:

Δ ϵ 1 ( N ) Δ ϵ 1 ( N − 1 ) . . . Δ ϵ 1 ( 2 ) Δ ϵ 1 ( 1 ) f 1 ( a 1 x + b 1 y ) = A N ( x ) \Delta _{\epsilon ^{(N)}_{1}} \Delta _{\epsilon ^{(N-1)}_{1}} ...\Delta _{\epsilon ^{(2)}_{1}} \Delta _{\epsilon ^{(1)}_{1}} f_{1} (a_{1} x+b_{1} y)=A_{N} (x) Δϵ1(N)Δϵ1(N1)...Δϵ1(2)Δϵ1(1)f1(a1x+b1y)=AN(x)

然后令x不变y边做一次差分

Δ ϵ 1 ( N + 1 ) Δ ϵ 1 ( N ) Δ ϵ 1 ( N − 1 ) . . . Δ ϵ 1 ( 2 ) Δ ϵ 1 ( 1 ) f 1 ( a 1 x + b 1 y ) = 0 \Delta _{\epsilon ^{(N+1)}_{1}} \Delta _{\epsilon ^{(N)}_{1}} \Delta _{\epsilon ^{(N-1)}_{1}} ...\Delta _{\epsilon ^{(2)}_{1}} \Delta _{\epsilon ^{(1)}_{1}} f_{1} (a_{1} x+b_{1} y)=0 Δϵ1(N+1)Δϵ1(N)Δϵ1(N1)...Δϵ1(2)Δϵ1(1)f1(a1x+b1y)=0

最终我们发现,对于任意的x,y, f 1 \displaystyle f_{1} f1在N+1次差分后变成了0(这等价于N+1次求导),这意味着 f 1 \displaystyle f_{1} f1一定是一个多项式函数,而且最多只有 N \displaystyle N N阶.
证毕

在这里插入图片描述
定理1说明了高斯分布只能由高斯分布相加产生,不可能存在其他分布。(这个与中心极限定理是有点“冲突”。不过实际上,当相加的分布是有限的时候,这个定理是一定成立的)

在这里插入图片描述
第二个定理是说明了,如果特征函数满足指数项是多项式的时候,只有高斯分布的随机变量满足。也就是说,如果存在特征函数是 e P ( w ) e^{P(w)} eP(w)形式的变量,那 P ( w ) P(w) P(w)一定是小于或等于2阶多项式。

在这里插入图片描述

最后就是我们要证明的DS定理了。首先,对于那些 a i b i = 0 a_ib_i=0 aibi=0的项,我们是可以忽略的,因为这意味着 X i X_i Xi只出现在一边,所以并不会影响 Y Y Y的独立性。所以我们重点还是考虑 Y Y Y中的 a i b i ≠ 0 a_ib_i\ne0 aibi=0项。

证明
首先,我们可以设 a i b j − a j b i ≠ 0 → a i a j ≠ b i b j a_ib_j-a_jb_i\ne 0 \to \frac{a_i}{a_j}\ne \frac{b_i}{b_j} aibjajbi=0ajai=bjbi,换句话说,没有等比例的两个 X i , X j X_i,X_j Xi,Xj,如果有的话,我们完全可以把他们合并成一个随机变量,然后定义一个新的。(那如果这个新的变量是高斯分布,根据L´evy-Cramer定理,合并的这两个变量也是高斯的,所以这并不会影响我们的证明,尽管可以只能证出这个合并后的变量是高斯的,只要 a b ≠ 0 ab\ne 0 ab=0

首先一个随机变量的特征函数可以写作

Φ X ( ω ) = E { e j ω X } \Phi _{X} (\omega )=E\{e^{j\omega X} \} ΦX(ω)=E{ejωX}

于是对于 Y 1 , Y 2 \displaystyle Y_{1} ,Y_{2} Y1,Y2的特征函数为,

Φ Y 1 , Y 2 ( ω 1 , ω 2 ) = E { e j ω 1 Y 1 + j ω 2 Y 2 } = E { e j ∑ i = 1 N ( ω 1 a i + b i ω 2 ) X i ) } = Φ X 1 ( a 1 ω 1 + b 1 ω 2 ) Φ X 2 ( a 2 ω 1 + b 2 ω 2 ) . . . Φ X N ( a N ω 1 + b N ω 2 ) \begin{aligned} \Phi _{Y_{1} ,Y_{2}} (\omega _{1} ,\omega _{2} ) & =E\left\{e^{j\omega _{1} Y_{1} +j\omega _{2} Y_{2}}\right\}\\ & =E\left\{e^{j\sum ^{N}_{i=1}( \omega _{1} a_{i} +b_{i} \omega _{2}) X_{i})}\right\}\\ & =\Phi _{X_{1}} (a_{1} \omega _{1} +b_{1} \omega _{2} )\Phi _{X_{2}} (a_{2} \omega _{1} +b_{2} \omega _{2} )...\Phi _{X_{N}} (a_{N} \omega _{1} +b_{N} \omega _{2} ) \end{aligned} ΦY1,Y2(ω1,ω2)=E{ejω1Y1+jω2Y2}=E{eji=1N(ω1ai+biω2)Xi)}=ΦX1(a1ω1+b1ω2)ΦX2(a2ω1+b2ω2)...ΦXN(aNω1+bNω2)

最后一个等式是因为 X \displaystyle X X是相互独立的,所以他们的特征函数可以分解。然后又因为 Y 1 , Y 2 \displaystyle Y_{1} ,Y_{2} Y1,Y2是独立的,所以

Φ Y 1 , Y 2 ( ω 1 , ω 2 ) = Φ Y 1 ( ω 1 ) Φ Y 2 ( ω 2 ) \Phi _{Y_{1} ,Y_{2}} (\omega _{1} ,\omega _{2} )=\Phi _{Y_{1}} (\omega _{1} )\Phi _{Y_{2}} (\omega _{2} ) ΦY1,Y2(ω1,ω2)=ΦY1(ω1)ΦY2(ω2)

于是

Φ X 1 ( a 1 ω 1 + b 1 ω 2 ) Φ X 2 ( a 2 ω 1 + b 2 ω 2 ) . . . Φ X N ( a N ω 1 + b N ω 2 ) = Φ Y 1 ( ω 1 ) Φ Y 2 ( ω 2 ) \Phi _{X_{1}} (a_{1} \omega _{1} +b_{1} \omega _{2} )\Phi _{X_{2}} (a_{2} \omega _{1} +b_{2} \omega _{2} )...\Phi _{X_{N}} (a_{N} \omega _{1} +b_{N} \omega _{2} )=\Phi _{Y_{1}} (\omega _{1} )\Phi _{Y_{2}} (\omega _{2} ) ΦX1(a1ω1+b1ω2)ΦX2(a2ω1+b2ω2)...ΦXN(aNω1+bNω2)=ΦY1(ω1)ΦY2(ω2)

两边取log

ψ X 1 ( a 1 ω 1 + b 1 ω 2 ) + ψ X 2 ( a 2 ω 1 + b 2 ω 2 ) + . . . + ψ X N ( a N ω 1 + b N ω 2 ) = ψ Y 1 ( ω 1 ) + ψ Y 2 ( ω 2 ) \psi _{X_{1}} (a_{1} \omega _{1} +b_{1} \omega _{2} )+\psi _{X_{2}} (a_{2} \omega _{1} +b_{2} \omega _{2} )+...+\psi _{X_{N}} (a_{N} \omega _{1} +b_{N} \omega _{2} )=\psi _{Y_{1}} (\omega _{1} )+\psi _{Y_{2}} (\omega _{2} ) ψX1(a1ω1+b1ω2)+ψX2(a2ω1+b2ω2)+...+ψXN(aNω1+bNω2)=ψY1(ω1)+ψY2(ω2)

这个就是我们的引理1了,根据引理1, ψ X i \displaystyle \psi _{X_{i}} ψXi, ψ X j \displaystyle \psi _{X_{j}} ψXj一定是一个多项式函数,根据Marcinkiewics-Dugue定理, X i , X j \displaystyle X_{i} ,X_{j} Xi,Xj一定是高斯分布(因为他取了log之后是多项式,所以其指数项是多项式)

我们可以总结一下,只要存在 a i b i ≠ 0 \displaystyle a_{i} b_{i} \neq 0 aibi=0的项, X i \displaystyle X_{i} Xi一定是高斯分布。
证毕

参考资料

Babaie-Zadeh, Massoud. “Darmois-Skitovic theorem and its proof.” Sharif University of Technology, Jan (2002).

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值