KSG互信息估计器的原理详细推导(Kraskov, 2004)

KSG Estimators

KSG估计器是Kraskov在2004年提出的互信息估计器,其原文过于简略,我参考大量文献对细节进行了补充。原文位置:[https://arxiv.org/pdf/cond-mat/0305641.pdf]

KSG估计的基本方法是首先对互信息进行如下分解 (1)
I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X,Y)=H(X)+H(Y)-H(X,Y) I(X,Y)=H(X)+H(Y)H(X,Y)
因此,只需要对 H ( x ) H(x) H(x)等三项进行逐个估计即可。

KLE Esitmator

KLE估计器用于估计微分熵。

利用蒙特卡洛估计有(2)
H [ x ] = − ∫ μ ( x ) l o g μ ( x ) d x ≈ − 1 N l o g μ ^ ( x ) H[x]=-\int\mu(x)log\mu(x)dx \approx -\frac{1}{N}log\hat{\mu}(x) H[x]=μ(x)lo(x)dxN1logμ^(x)
Then the key problem is estimating μ ^ \hat{\mu} μ^(x).

考虑 一个 ϵ − b a l l \epsilon-ball ϵball x i x_i xi为中心, 则 ( 0 , ϵ 2 ) (0,\frac{\epsilon}{2}) (0,2ϵ)的范围内有 k − 1 k-1 k1个点, ( ϵ 2 , ϵ 2 + d ϵ ) (\frac{\epsilon}{2},\frac{\epsilon}{2}+d\epsilon) (2ϵ,2ϵ+dϵ)中间有一个点(the kth neighbor), ( ϵ 2 + d ϵ ) (\frac{\epsilon}{2}+d\epsilon) (2ϵ+dϵ)之外有剩余的 N − k − 1 N-k-1 Nk1​个点,因此首先在除了 x i x_i xi的N-1个点中挑选k个点,其中一个点位于边缘上,这k个点中剩余选取k-1个点位于最中心范围内,则 p ( ϵ ) p(\epsilon) p(ϵ) x i x_i xi周围 ϵ − b a l l \epsilon-ball ϵball的概率质量(mass) (3):
p i ( ϵ ) = ( N − 1 k ) ( k k − 1 ) ( 1 − p i ( ϵ ) ) N − k − 1 p i ( ϵ ) k − 1 d p i ( ϵ ) 1 d ϵ = ( N − 1 ) ! ( N − k − 1 ) ! 1 ! ( k − 1 ) ! ( 1 − p i ( ϵ ) ) N − k − 1 p i ( ϵ ) k − 1 d p i ( ϵ ) 1 d ϵ \begin{aligned} p_i(\epsilon)=&\tbinom{N-1}{k}\tbinom{k}{k-1}(1-p_i(\epsilon))^{N-k-1}p_i(\epsilon)^{k-1}\frac{dp_i(\epsilon)^1}{d\epsilon}\\ & = \frac{(N-1)!}{(N-k-1)!1!(k-1)!}(1-p_i(\epsilon))^{N-k-1}p_i(\epsilon)^{k-1}\frac{dp_i(\epsilon)^1}{d\epsilon} \end{aligned} pi(ϵ)=(kN1)(k1k)(1pi(ϵ))Nk1pi(ϵ)k1dϵdpi(ϵ)1=(Nk1)!1!(k1)!(N1)!(1pi(ϵ))Nk1pi(ϵ)k1dϵdpi(ϵ)1
u = p i ( ϵ ) u=p_i(\epsilon) u=pi(ϵ),则 d u = d p i ( ϵ ) d ϵ du=dp_i(\epsilon)d\epsilon du=dpi(ϵ)dϵ
Beta函数定义为 b e t a ( p , q ) = ∫ 0 1 x p − 1 ( 1 − x ) q − 1 d x = ( p − 1 ) ! ( q − 1 ) ! ( p + q − 1 ) ! = p + q p q ( p + q p ) beta(p,q)=\int_0^{1}x^{p-1}(1-x)^{q-1}dx=\frac{(p-1)!(q-1)!}{(p+q-1)!=\frac{\frac{p+q}{pq}}{\tbinom{p+q}{p}}} beta(p,q)=01xp1(1x)q1dx=(p+q1)!=(pp+q)pqp+q(p1)!(q1)!
因此,验证积分为1: (4)
∫ 0 ∞ p i ( ϵ ) d ϵ = ∫ 0 1 k ( N − 1 k ) μ k − 1 ( 1 − μ ) N − k − 1 d μ = k ( N − 1 k ) b e t a ( k , N − k ) = k ( N − 1 k ) N k ( N − k ) 1 ( N k ) = 1 \begin{aligned} \int_0^{\infin}p_i(\epsilon)d\epsilon&=\int_0^1k\tbinom{N-1}{k}\mu^{k-1}(1-\mu)^{N-k-1}d\mu=k\tbinom{N-1}{k}beta(k,N-k)\\ &=k\tbinom{N-1}{k}\frac{N}{k(N-k)}\frac{1}{\tbinom{N}{k}}=1 \end{aligned} 0pi(ϵ)dϵ=01k(kN1)μk1(1μ)Nk1dμ=k(kN1)beta(k,Nk)=k(kN1)k(Nk)N(kN)1=1

Lemma 1.

X ∼ B e t a ( α , β ) , E [ l o g ( X ) ] = ψ ( α ) − ψ ( α + β ) , ψ ( ) = Γ ′ ( ) Γ ( ) X\sim Beta(\alpha, \beta),\mathbb{E}[log(X)]=\psi(\alpha)-\psi(\alpha+\beta),\psi()=\frac{\Gamma'()}{\Gamma()} XBeta(α,β),E[log(X)]=ψ(α)ψ(α+β),ψ()=Γ()Γ()

证明: (5)
E [ l o g ( X ) ] = ∫ 0 1 B ( α , β ) − 1 l o g ( x ) x α − 1 ( 1 − x ) β − 1 d x = B ( α , β ) − 1 ∫ 0 1 ∂ ∂ α x α − 1 ( 1 − x ) β − 1 d x \begin{aligned} E[log(X)]&=\int_0^1B(\alpha,\beta)^{-1}log(x)x^{\alpha-1}(1-x)^{\beta-1}dx\\ &=B(\alpha,\beta)^{-1}\int_0^1\frac{\partial}{\partial\alpha}x^{\alpha-1}(1-x)^{\beta-1}dx \end{aligned} E[log(X)]=01B(α,β)1log(x)xα1(1x)β1dx=B(α,β)101αxα1(1x)β1dx
交换微分和积分的顺序(类似于莱布尼兹法则): (6)
E [ l o g ( X ) ] = B e t a ( α , β ) − 1 ∂ ∂ α B e t a ( α , β ) = ∂ ∂ α l o g B ( α , β ) E[log(X)]=Beta(\alpha,\beta)^{-1}\frac{\partial}{\partial\alpha}Beta(\alpha,\beta)=\frac{\partial}{\partial\alpha}logB(\alpha,\beta) E[log(X)]=Beta(α,β)1αBeta(α,β)=αlogB(α,β)
展开Beta函数: (7)
= ∂ ∂ α [ l o g Γ ( α ) + l o g Γ ( β ) − l o g Γ ( α + β ) ] = ψ ( α ) − ψ ( α + β ) =\frac{\partial}{\partial\alpha}[log\Gamma(\alpha)+log\Gamma(\beta)-log\Gamma(\alpha+\beta)]=\psi(\alpha)-\psi(\alpha+\beta) =α[logΓ(α)+logΓ(β)logΓ(α+β)]=ψ(α)ψ(α+β)

Proposition 2.

E [ l o g p i ( ϵ ) ] = ψ ( k ) − ψ ( N ) E[logp_i(\epsilon)]=\psi(k)-\psi(N) E[logpi(ϵ)]=ψ(k)ψ(N)

使用Lemma 1可得。

熵的估计

假设在 x i x_i xi的邻域范围内,概率密度 μ ( x ) \mu(x) μ(x)是均匀的,则有 (8)
p i ( ϵ ) ≈ c d ϵ d μ ( x i ) p_i(\epsilon)\approx c_d\epsilon^d\mu(x_i) pi(ϵ)cdϵdμ(xi)
其中, c d c_d cd是n维的单位球体体积,定义为 ∫ ∥ s ∥ < 1 / 2 d s \int_{\Vert s \Vert<1/2}ds s<1/2ds,对于某些范数。

如果是2范数,则n维球体积公式 (9)
V n = π n 2 R d Γ ( 1 + n 2 ) V_n=\frac{\pi^{\frac{n}{2}}R^d}{\Gamma(1+\frac{n}{2})} Vn=Γ(1+2n)π2nRd
R = 1 R=1 R=1时即为 c d c_d cd,再乘以 R d R^d Rd

因此,该区域概率密度 μ ( x i ) \mu(x_i) μ(xi)乘以体积 c d ϵ d c_d\epsilon^d cdϵd,得到该区域概率质量 p i ( ϵ ) p_i(\epsilon) pi(ϵ)

根据(8),有 (10)
E [ − l o g μ ( X i ) ] ≈ − E [ l o g p i ( ϵ ) ] + l o g c d + d E [ l o g ϵ ] = − ϕ ( k ) + ϕ ( N ) + l o g c d + d E [ l o g ϵ ] ≈ − ϕ ( k ) + ϕ ( N ) + l o g c d + d N ∑ i = 1 N l o g ϵ i \begin{aligned} E[-log\mu(X_i)]&\approx-E[logp_i(\epsilon)]+logc_d+dE[log\epsilon]\\ &=-\phi(k)+\phi(N)+logc_d+dE[log\epsilon]\\ &\approx-\phi(k)+\phi(N)+logc_d+\frac{d}{N}\sum_{i=1}^{N}log\epsilon_i \end{aligned} E[lo(Xi)]E[logpi(ϵ)]+logcd+dE[logϵ]=ϕ(k)+ϕ(N)+logcd+dE[logϵ]ϕ(k)+ϕ(N)+logcd+Ndi=1Nlogϵi
其中,最后的 ϵ i \epsilon_i ϵi表示第 i i i个点到他第kth最近邻的距离。

KSG1估计器

首先, H ( X ) H(X) H(X) H ( Y ) H(Y) H(Y)可以直接使用(10)进行估计。

其次,使用(10),联合熵的一个估计是 (11):
H ^ ( X , Y ) = − ψ ( k ) + ψ ( N ) + l o g ( c d z ) + d z N ∑ l o g ϵ i \hat{H}(X,Y)=-\psi(k)+\psi(N)+log(c_{dz})+\frac{dz}{N}\sum log\epsilon_i H^(X,Y)=ψ(k)+ψ(N)+log(cdz)+Ndzlogϵi
其中, d z = d x + d y dz=dx+dy dz=dx+dy,即Z的维度是x和y维度之和。且对于球的体积,KSG采用的最大范数进行的度量,也就是最大范数下N维空间球的体积,因此区域看上去是n维的立方体。

其中可以注意到: (12)
c d z = c d x c d y c_{dz}=c_{dx}c_{dy} cdz=cdxcdy
我思考时类比于正方体的底面积乘以高,这一点在下面(23)式中使用。

然而,使用固定的k估计的 H ( X ) H ( Y ) H ( X , Y ) H(X)H(Y)H(X,Y) H(X)H(Y)H(X,Y)直接对 I ( X , Y ) I(X,Y) I(X,Y)进行估计,存在问题。原因是,(10)式的偏差主要来自于对(8)式假设的均匀概率密度的违反,因此这三项估计都因此会存在偏差。而对于一个固定的k来说,联合空间上的第k近邻的距离要远于边际空间,因此实际上同样是kth近邻,空间的大小不同,因此概率密度违反(8)式假设的大小也不同,因此会导致偏差非常不同从而无法抵消(且观看下图图示,以1近邻为例)。
在这里插入图片描述

为了避免这一点,由于(10)对任意k都成立,因此不必使用固定的k。KSG1的方法是首先找到Joint上kth近邻,然后在X marginnal space上确定其距离 ϵ ( i ) \epsilon(i) ϵ(i),在该距离内的点的个数作为 n x ( i ) n_x(i) nx(i),则到joint上第kth点的距离正是 ϵ ( i ) \epsilon(i) ϵ(i),而这个点在Xmarginal上则必然是第 n x ( i ) + 1 n_x(i)+1 nx(i)+1个点。对Y marginal space用同样大小的距离 ϵ ( i ) \epsilon(i) ϵ(i)做同等操作。具体的情况如下图所示,此时Joint上是1th近邻,而此时x方向上产生5近邻,而y方向上是3近邻。
在这里插入图片描述

此时对于 H ( X ) H(X) H(X)来说,则有(考虑(2)式和(10)式中第一个约等号的蒙特卡洛近似,我未必写的非常非常详细,如果这里还需过于详细的介绍,则无需再看此文,而是重新补习统计相关知识): (13)
H ^ ( X ) = − 1 N ∑ i = 1 N ψ ( n x ( i ) + 1 ) + ψ ( N ) + l o g ( c d z ) + d x N ∑ l o g ϵ i \hat{H}(X)=-\frac{1}{N}\sum_{i=1}^{N}\psi(n_x(i)+1)+\psi(N)+log(c_{dz})+\frac{dx}{N}\sum log\epsilon_i H^(X)=N1i=1Nψ(nx(i)+1)+ψ(N)+log(cdz)+Ndxlogϵi
对于Y,则利用同样的距离找到 n y ( i ) + 1 n_y(i)+1 ny(i)+1进行估计,导致Y的估计不准,因为y到其kth点的距离不是 ϵ 2 \frac{\epsilon}{2} 2ϵ

KSG2估计器

KSG2估计器更为复杂,其考虑在两个marginal的方向上采用不同的距离,此时图示joint的kth区域不再是超立方体区域,而是超长方体区域。首先根据joint上kth近邻的位置分别确定x marginal上的距离和y marginal上的距离(已经与KSG1不同,该方法确定x marginal上的距离后,直接将该距离应用于 y marginal上,因此是超正方体),此时点落在 x i ± ϵ x ( i ) / 2 x_i\pm\epsilon_x(i)/2 xi±ϵx(i)/2 y i ± ϵ y ( i ) / 2 y_i\pm\epsilon_y(i)/2 yi±ϵy(i)/2之内。

此时存在两种情况,即 ϵ x ( i ) \epsilon_x(i) ϵx(i) ϵ y ( i ) \epsilon_y(i) ϵy(i)由同一点决定由两点决定,具体见下图。
在这里插入图片描述

故考虑在将原先的超正方体概率替换为超长方体的概率,该超长方体的概率是两种情况的混合,则 (14)
P k ( ϵ x , ϵ y ) = P k b ( ϵ x , ϵ y ) + P k c ( ϵ x , ϵ y ) P_k(\epsilon_x,\epsilon_y)=P_k^b(\epsilon_x,\epsilon_y)+P_k^c(\epsilon_x,\epsilon_y) Pk(ϵx,ϵy)=Pkb(ϵx,ϵy)+Pkc(ϵx,ϵy)
其中第一种时,有k-1个点在最内,中间的微分区域(逻辑与(3)相同)有1个点,外部有N-1-k个点在最外,若不失一般性的假设 ϵ x < ϵ y \epsilon_x<\epsilon_y ϵx<ϵy,该种状况发生的概率表达为 (15)
P k b ( ϵ x , ϵ y ) = ( N − 1 k ) ( k k − 1 ) q i k − 1 ( ∂ 2 q i ∂ ϵ x ∂ ϵ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 = k ( N − 1 k ) q i k − 1 ( ∂ 2 q i ∂ ϵ x ∂ ϵ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 \begin{aligned} P_k^b(\epsilon_x,\epsilon_y)&=\tbinom{N-1}{k}\tbinom{k}{k-1}q_i^{k-1}(\frac{\partial ^2 q_i}{\partial\epsilon_x\partial\epsilon_y})(1-p_i(\epsilon_y))^{N-k-1}\\ &=k\tbinom{N-1}{k}q_i^{k-1}(\frac{\partial ^2 q_i}{\partial\epsilon_x\partial\epsilon_y})(1-p_i(\epsilon_y))^{N-k-1} \end{aligned} Pkb(ϵx,ϵy)=(kN1)(k1k)qik1(ϵxϵy2qi)(1pi(ϵy))Nk1=k(kN1)qik1(ϵxϵy2qi)(1pi(ϵy))Nk1
原文的表述将 q i q_i qi吸进了偏导项中,其中 q i q_i qi表示的是上述超长方体的区域,而 p i p_i pi则仍然是由较大的 ϵ y \epsilon_y ϵy确定的超正方体区域。使用 p i p_i pi是必须的,因为使用了最大范数,即最远的点的距离,保证了如果该正方形内的点都在矩形中,反之则不行。

对于第二种情况,此时有k-2个点在最内,而2个点在微分区域,N-k-1个点在外围区域,因此此种状况发生的概率为 (16)
P k c ( ϵ x , ϵ y ) = ( N − 1 k ) ( k k − 2 ) q i k − 2 ( ∂ 2 q i 2 ∂ ϵ x ∂ ϵ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 = ( N − 1 k ) ( k k − 2 ) 2 q i q i k − 2 ( ∂ 2 q i ∂ ϵ x ∂ ϵ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 = k ( k − 1 ) ( N − 1 k ) q i k − 1 ( ∂ 2 q i ∂ ϵ x ∂ ϵ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 \begin{aligned} P_k^c(\epsilon_x,\epsilon_y)&=\tbinom{N-1}{k}\tbinom{k}{k-2}q_i^{k-2}(\frac{\partial ^2 q_i^2}{\partial\epsilon_x\partial\epsilon_y})(1-p_i(\epsilon_y))^{N-k-1}\\ &=\tbinom{N-1}{k}\tbinom{k}{k-2}2q_iq_i^{k-2}(\frac{\partial ^2 q_i}{\partial\epsilon_x\partial\epsilon_y})(1-p_i(\epsilon_y))^{N-k-1}\\ &=k(k-1)\tbinom{N-1}{k}q_i^{k-1}(\frac{\partial ^2 q_i}{\partial\epsilon_x\partial\epsilon_y})(1-p_i(\epsilon_y))^{N-k-1} \end{aligned} Pkc(ϵx,ϵy)=(kN1)(k2k)qik2(ϵxϵy2qi2)(1pi(ϵy))Nk1=(kN1)(k2k)2qiqik2(ϵxϵy2qi)(1pi(ϵy))Nk1=k(k1)(kN1)qik1(ϵxϵy2qi)(1pi(ϵy))Nk1
同时注意到,由于X和Y上是独立的,根据 (17)
u ( ∂ q ∂ x ∂ y ) = ( ∂ q ∂ x ) ( ∂ q ∂ y ) u(\frac{\partial q}{\partial x\partial y})=(\frac{\partial q}{\partial x})(\frac{\partial q}{\partial y}) u(xyq)=(xq)(yq)
故(16)进一步拆解为 (18)
k ( k − 1 ) ( N − 1 k ) q i k − 2 ( ∂ q ∂ x ) ( ∂ q ∂ y ) ( 1 − p i ( ϵ y ) ) N − k − 1 k(k-1)\tbinom{N-1}{k}q_i^{k-2}(\frac{\partial q}{\partial x})(\frac{\partial q}{\partial y})(1-p_i(\epsilon_y))^{N-k-1} k(k1)(kN1)qik2(xq)(yq)(1pi(ϵy))Nk1
验证 P k ( ϵ x , ϵ y ) = P k b ( ϵ x , ϵ y ) + P k c ( ϵ x , ϵ y ) P_k(\epsilon_x,\epsilon_y)=P_k^b(\epsilon_x,\epsilon_y)+P_k^c(\epsilon_x,\epsilon_y) Pk(ϵx,ϵy)=Pkb(ϵx,ϵy)+Pkc(ϵx,ϵy)的积分为1. (19)
∫ 0 ∞ ∫ 0 ϵ y P k ( ϵ x , ϵ y ) d ϵ x d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ∫ 0 ϵ y ∂ ∂ x ( k q i k − 1 ( ∂ q i ∂ ϵ y ) ) d ϵ x d ϵ y = k ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 p i ( ϵ y ) k − 1 d ϵ y = k ( N − 1 k ) B e t a ( k , N − k ) = 1 \begin{aligned} &\int_0^{\infin}\int_0^{\epsilon_y}P_k(\epsilon_x,\epsilon_y)d\epsilon_xd\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}\int_0^{\epsilon_y}\frac{\partial}{\partial x}({kq_i^{k-1}(\frac{\partial q_i}{\partial\epsilon_y}}))d\epsilon_xd\epsilon_y\\ &=k\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}p_i(\epsilon_y)^{k-1}d\epsilon_y\\ &=k\tbinom{N-1}{k}Beta(k,N-k)=1 \end{aligned} 00ϵyPk(ϵx,ϵy)dϵxdϵy=(kN1)0(1pi(ϵy))Nk10ϵyx(kqik1(ϵyqi))dϵxdϵy=k(kN1)0(1pi(ϵy))Nk1pi(ϵy)k1dϵy=k(kN1)Beta(k,Nk)=1
下面证明 E [ l o g q i ( ϵ x , ϵ y ) ] = ψ ( k ) − ψ ( N ) − 1 / k E[logq_i(\epsilon_x,\epsilon_y)]=\psi(k)-\psi(N)-1/k E[logqi(ϵx,ϵy)]=ψ(k)ψ(N)1/k,首先在第二个积分号进行分部积分: (20)
E [ l o g q i ( ϵ x , ϵ y ) ] = ∫ 0 ∞ ∫ 0 ϵ y l o g ( q i ) P k ( ϵ x , ϵ y ) d ϵ x d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ∫ 0 ϵ y ∂ ∂ x ( k q i k − 1 ( ∂ q i ∂ ϵ y ) ) d ϵ x d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 [ l o g ( q i ) k q i k − 1 ( ∂ q i ∂ ϵ y ) ∣ 0 ϵ y − ∫ 0 ϵ y { k q i k − 2 ∂ q i ∂ ϵ x ( ∂ q i ∂ ϵ y ) } d ϵ x ] d ϵ y \begin{aligned} E[logq_i(\epsilon_x,\epsilon_y)]&=\int_0^{\infin}\int_0^{\epsilon_y}log(q_i)P_k(\epsilon_x,\epsilon_y)d\epsilon_xd\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}\int_0^{\epsilon_y}\frac{\partial}{\partial x}({kq_i^{k-1}(\frac{\partial q_i}{\partial\epsilon_y}}))d\epsilon_xd\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}[log(q_i)kq_i^{k-1}(\frac{\partial q_i}{\partial \epsilon_y})|_{0}^{\epsilon_y}\\&-\int_0^{\epsilon_y}\{kq_i^{k-2}\frac{\partial q_i}{\partial \epsilon_x}(\frac{\partial q_i}{\partial \epsilon_y})\}d\epsilon_x]d\epsilon_y\\ \end{aligned} E[logqi(ϵx,ϵy)]=00ϵylog(qi)Pk(ϵx,ϵy)dϵxdϵy=(kN1)0(1pi(ϵy))Nk10ϵyx(kqik1(ϵyqi))dϵxdϵy=(kN1)0(1pi(ϵy))Nk1[log(qi)kqik1(ϵyqi)0ϵy0ϵy{kqik2ϵxqi(ϵyqi)}dϵx]dϵy
由最开始的Lemma1可知 X ∼ B e t a ( α , β ) , E [ l o g ( X ) ] = ψ ( α ) − ψ ( α + β ) , ψ ( ) = Γ ′ ( ) Γ ( ) X\sim Beta(\alpha, \beta),\mathbb{E}[log(X)]=\psi(\alpha)-\psi(\alpha+\beta),\psi()=\frac{\Gamma'()}{\Gamma()} XBeta(α,β),E[log(X)]=ψ(α)ψ(α+β),ψ()=Γ()Γ()

可以观察到第一部分: (21)
= ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 [ l o g ( q i ) k q i k − 1 ( ∂ q i ∂ ϵ y ) ∣ 0 ϵ y d ϵ x d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 l o g ( p i ( ϵ y ) ) k p i ( ϵ y ) k − 1 ( ∂ p i ( ϵ y ) ∂ ϵ y ) d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 l o g ( p i ( ϵ y ) ) k p i ( ϵ y ) k − 1 ( ∂ p i ( ϵ y ) ∂ ϵ y ) d ϵ y = ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 l o g ( p i ( ϵ y ) ) k p i ( ϵ y ) k − 1 d p i ( ϵ y ) = ( N − 1 k ) ∫ 0 1 ( 1 − u ) N − k − 1 l o g ( u ) k u k − 1 d u = ψ ( k ) − ψ ( N ) \begin{aligned} &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}[log(q_i)kq_i^{k-1}(\frac{\partial q_i}{\partial \epsilon_y})|_{0}^{\epsilon_y}d\epsilon_xd\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}log(p_i(\epsilon_y))kp_i(\epsilon_y)^{k-1}(\frac{\partial p_i(\epsilon_y)}{\partial \epsilon_y})d\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}log(p_i(\epsilon_y))kp_i(\epsilon_y)^{k-1}(\frac{\partial p_i(\epsilon_y)}{\partial \epsilon_y})d\epsilon_y\\ &=\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}log(p_i(\epsilon_y))kp_i(\epsilon_y)^{k-1}dp_i(\epsilon_y)\\ &=\tbinom{N-1}{k}\int_0^{1}(1-u)^{N-k-1}log(u)ku^{k-1}du=\psi(k)-\psi(N) \end{aligned} =(kN1)0(1pi(ϵy))Nk1[log(qi)kqik1(ϵyqi)0ϵydϵxdϵy=(kN1)0(1pi(ϵy))Nk1log(pi(ϵy))kpi(ϵy)k1(ϵypi(ϵy))dϵy=(kN1)0(1pi(ϵy))Nk1log(pi(ϵy))kpi(ϵy)k1(ϵypi(ϵy))dϵy=(kN1)0(1pi(ϵy))Nk1log(pi(ϵy))kpi(ϵy)k1dpi(ϵy)=(kN1)01(1u)Nk1log(u)kuk1du=ψ(k)ψ(N)
其中,注意到 q i ( 0 ) = 0 q_i(0)=0 qi(0)=0和当 ϵ x = ϵ y \epsilon_x=\epsilon_y ϵx=ϵy时有 q ( ϵ y , ϵ y ) q(\epsilon_y,\epsilon_y) q(ϵy,ϵy)为一个超立方体,恰是 p i ( ϵ y ) p_i(\epsilon_y) pi(ϵy),最后的部分由前面Prososition 2.的结论得出。

第二部分: (22)
− ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( ∫ 0 ϵ y { k q i k − 2 ∂ q i ∂ ϵ x ( ∂ q i ∂ ϵ y ) } d ϵ x ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( ∫ 0 ϵ y { k q i k − 2 ∂ q i ∂ ϵ x ( ∂ q i ∂ ϵ y ) } d ϵ x ) d ϵ y \begin{aligned} &-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\int_0^{\epsilon_y}\{kq_i^{k-2}\frac{\partial q_i}{\partial \epsilon_x}(\frac{\partial q_i}{\partial \epsilon_y})\}d\epsilon_x)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\int_0^{\epsilon_y}\{kq_i^{k-2}\frac{\partial q_i}{\partial \epsilon_x}(\frac{\partial q_i}{\partial \epsilon_y})\}d\epsilon_x)d\epsilon_y \end{aligned} (kN1)0(1pi(ϵy))Nk1(0ϵy{kqik2ϵxqi(ϵyqi)}dϵx)dϵy=(kN1)0(1pi(ϵy))Nk1(0ϵy{kqik2ϵxqi(ϵyqi)}dϵx)dϵy
由局部均匀假设: (23)
q i ( ϵ x , ϵ y ) ≈ μ ( x i , y i ) c d x c d y ϵ x d x ϵ y d y → ∂ ∂ ϵ y q i ( ϵ x , ϵ y ) = μ ( x i , y i ) c d x c d y ϵ x d x d y ϵ y d y − 1 = q i ( ϵ x , ϵ y ) d y ϵ y \begin{aligned} &q_i(\epsilon_x,\epsilon_y)\approx\mu(x_i,y_i)c_{dx}c_{dy}\epsilon_x^{dx}\epsilon_y^{dy}\\ \rightarrow&\frac{\partial}{\partial \epsilon_y}q_i(\epsilon_x,\epsilon_y)=\mu(x_i,y_i)c_{dx}c_{dy}\epsilon_x^{dx}dy\epsilon_y^{dy-1}=q_i(\epsilon_x,\epsilon_y)\frac{dy}{\epsilon_y} \end{aligned} qi(ϵx,ϵy)μ(xi,yi)cdxcdyϵxdxϵydyϵyqi(ϵx,ϵy)=μ(xi,yi)cdxcdyϵxdxdyϵydy1=qi(ϵx,ϵy)ϵydy
并且由刚才分部积分时提及的当 ϵ x = ϵ y \epsilon_x=\epsilon_y ϵx=ϵy时有 q ( ϵ y , ϵ y ) q(\epsilon_y,\epsilon_y) q(ϵy,ϵy)为一个超立方体,因此 (24)
∂ ∂ ϵ y q i ( ϵ x , ϵ y ) ∣ ϵ x = ϵ y = p i ( ϵ y ) d y ϵ y \frac{\partial}{\partial \epsilon_y}q_i(\epsilon_x,\epsilon_y)|_{\epsilon_x=\epsilon_y}=p_i(\epsilon_y)\frac{dy}{\epsilon_y} ϵyqi(ϵx,ϵy)ϵx=ϵy=pi(ϵy)ϵydy

则(22)继续简化有: (25)
= − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( ∫ 0 ϵ y { k q i k − 2 ∂ q i ∂ ϵ x ( ∂ q i ∂ ϵ y ) } d ϵ x ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( ∫ 0 ϵ y { k q i k − 2 ∂ q i ∂ ϵ x ( q i d y ϵ y ) } d ϵ x ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( d y ϵ y ) ( ∫ 0 ϵ y { k q i k − 1 ∂ q i ∂ ϵ x } d ϵ x ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( d y ϵ y ) p i ( ϵ y ) k ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( d y ϵ y ) p i ( ϵ y ) k ) d ϵ y \begin{aligned} &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\int_0^{\epsilon_y}\{kq_i^{k-2}\frac{\partial q_i}{\partial \epsilon_x}(\frac{\partial q_i}{\partial \epsilon_y})\}d\epsilon_x)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\int_0^{\epsilon_y}\{kq_i^{k-2}\frac{\partial q_i}{\partial \epsilon_x}(q_i\frac{dy}{\epsilon_y})\}d\epsilon_x)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\frac{dy}{\epsilon_y})(\int_0^{\epsilon_y}\{kq_i^{k-1}\frac{\partial q_i}{\partial \epsilon_x}\}d\epsilon_x)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\frac{dy}{\epsilon_y})p_i(\epsilon_y)^k)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\frac{dy}{\epsilon_y})p_i(\epsilon_y)^k)d\epsilon_y \end{aligned} =(kN1)0(1pi(ϵy))Nk1(0ϵy{kqik2ϵxqi(ϵyqi)}dϵx)dϵy=(kN1)0(1pi(ϵy))Nk1(0ϵy{kqik2ϵxqi(qiϵydy)}dϵx)dϵy=(kN1)0(1pi(ϵy))Nk1(ϵydy)(0ϵy{kqik1ϵxqi}dϵx)dϵy=(kN1)0(1pi(ϵy))Nk1(ϵydy)pi(ϵy)k)dϵy=(kN1)0(1pi(ϵy))Nk1(ϵydy)pi(ϵy)k)dϵy
其中第三个等号注意到了 d y ϵ y \frac{dy}{\epsilon_y} ϵydy是常数,注意 d y dy dy Y Y Y的维度不是微分。第四个等号是将 k q i k − 1 kq_i^{k-1} kqik1吸收到微分,再由积分所得。

进一步根据(24)有:(26)
d d ϵ y p i ( ϵ y ) = d ∂ ϵ y q i ( ϵ x , ϵ y ) ∣ ϵ x = ϵ y = q i ( ϵ x , ϵ y ) ∣ ϵ x = ϵ y d y d ϵ y = p i ( ϵ y ) d y ϵ y \frac{d}{d\epsilon_y}p_i(\epsilon_y)=\frac{d}{\partial \epsilon_y}q_i(\epsilon_x,\epsilon_y)|_{\epsilon_x=\epsilon_y}=q_i(\epsilon_x,\epsilon_y)|_{\epsilon_x=\epsilon_y}\frac{dy}{d\epsilon_y}=p_i(\epsilon_y)\frac{dy}{\epsilon_y} dϵydpi(ϵy)=ϵydqi(ϵx,ϵy)ϵx=ϵy=qi(ϵx,ϵy)ϵx=ϵydϵydy=pi(ϵy)ϵydy
因此,(25)简化为(26)
= − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 ( d y ϵ y ) p i ( ϵ y ) k ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 p i ( ϵ y ) k − 1 ∂ ∂ y p i ( ϵ y ) d ϵ y = − ( N − 1 k ) ∫ 0 ∞ ( 1 − p i ( ϵ y ) ) N − k − 1 p i ( ϵ y ) k − 1 d p i = − ( N − 1 k ) B e t a ( k , N − k ) = − 1 k \begin{aligned} &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}(\frac{dy}{\epsilon_y})p_i(\epsilon_y)^k)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}p_i(\epsilon_y)^{k-1}\frac{\partial}{\partial y}p_i(\epsilon_y)d\epsilon_y\\ &=-\tbinom{N-1}{k}\int_0^{\infin}(1-p_i(\epsilon_y))^{N-k-1}p_i(\epsilon_y)^{k-1}dp_i=-\tbinom{N-1}{k}Beta(k,N-k)\\ &=-\frac{1}{k} \end{aligned} =(kN1)0(1pi(ϵy))Nk1(ϵydy)pi(ϵy)k)dϵy=(kN1)0(1pi(ϵy))Nk1pi(ϵy)k1ypi(ϵy)dϵy=(kN1)0(1pi(ϵy))Nk1pi(ϵy)k1dpi=(kN1)Beta(k,Nk)=k1
联立(21)和(26),得到(27)
E [ l o g q i ( ϵ x , ϵ y ) ] = ψ ( k ) − ψ ( N ) − 1 k E[logq_i(\epsilon_x,\epsilon_y)]=\psi(k)-\psi(N)-\frac{1}{k} E[logqi(ϵx,ϵy)]=ψ(k)ψ(N)k1
进一步的,根据公式(23),自然可得(28)
l o g μ ( x i , y i ) ≈ l o g q i ( ϵ x , ϵ y ) − l o g ( c d x c d y ) − d x l o g ϵ x − d y l o g ϵ y \begin{aligned} log\mu(x_i,y_i)\approx logq_i(\epsilon_x,\epsilon_y)-log(c_{dx}c_{dy})-dxlog\epsilon_x-dylog\epsilon_y \end{aligned} lo(xi,yi)logqi(ϵx,ϵy)log(cdxcdy)dxlogϵxdylogϵy
求期望有:(29)
E [ l o g μ ( x i , x y ) ] = ψ ( k ) − ψ ( N ) − 1 k − l o g ( c d x c d y ) − d x 1 N ∑ l o g ϵ x − d y 1 N ∑ l o g ϵ y E[log\mu(x_i,x_y)]=\\\psi(k)-\psi(N)-\frac{1}{k}-log(c_{dx}c_{dy})-dx\frac{1}{N}\sum log\epsilon_x-dy\frac{1}{N}\sum log\epsilon_y E[lo(xi,xy)]=ψ(k)ψ(N)k1log(cdxcdy)dxN1logϵxdyN1logϵy
再进一步利用(1)式可得KSG2估计器:(30)
I ( 2 ) ( X , Y ) = ψ ( k ) + ψ ( N ) − 1 k − 1 N ∑ ψ ( n x ) − 1 N ∑ ψ ( n y ) I^{(2)}(X,Y)=\psi(k)+\psi(N)-\frac{1}{k}-\frac{1}{N}\sum\psi(n_x)-\frac{1}{N}\sum\psi(n_y) I(2)(X,Y)=ψ(k)+ψ(N)k1N1ψ(nx)N1ψ(ny)

注意,这里是 ψ ( n x ) \psi(n_x) ψ(nx),这是因为 n x n_x nx此时定义为距离小于等于 ϵ x 2 \frac{\epsilon_x}{2} 2ϵx的点的个数。

至此,KSG估计器的形式推导完毕。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值