琴生不等式(Jensen Inequality)

目录

不同表述形式

有限形式

测度与概率形式

在概率论中的广义形式

不等式证明

有限形式

测度和概率形式

概率论中的广义形式

不等式应用

在概率密度函数中的形式

随机变量的偶次矩

其他有限形式

统计物理

信息论

Rao–Blackwell定理


在数学中,琴生不等式(Jensen Inequality)以丹麦数学家 Johan Jensen 的名字命名,又称詹森不等式。它将积分的凸函数的值与凸函数的积分联系起来,Jensen在 1906 年证明了这一点。

鉴于其普遍性,不等式根据上下文以多种形式出现,最简单的不等式表示均值的凸变换小于或等于凸变换后的均值。而凹变换的情况正好相反。

Jensen不等式概括了凸函数的割线位于函数图上方的陈述,这是Jensen对两点的不等式:割线由凸函数的加权均值组成(对于 t∈[0,1]):

tf(x_{1})+(1-t)f(x_{2})

函数的图形是加权均值的凸函数:

f(tx_{1}+(1-t)x_{2})

因此,Jensen 不等式是 :

f(tx_{1}+(1-t)x_{2})\leq tf(x_{1})+(1-t)f(x_{2})

在概率论的语境中,一般用以下形式表述:如果 X 是随机变量且 φ 是凸函数,则:

\varphi(E[X])\leq E[\varphi(X)]

不等式两边的差E[\varphi(X)]-\varphi(E[X]),称为 Jensen 间隙(Jensen gap)。

不同表述形式

Jensen 不等式的经典形式涉及多个数字和权重。 不等式可以用测度论的语言或(等价的)概率来表述。 在概率定义中,不等式可以进一步推广到其全部强度(full strength)。

有限形式

对于一个实凸函数\varphi,定义域中的数字x_{1},x_{2},x_{3},...x_{n},和正权重a_{i},Jensen不等式可以表示为:

\varphi(\frac{\sum a_{i}x_{i}}{\sum a_{i}})\leq \frac{\sum a_{i}\varphi(x_{i})}{\sum a_{i}}

如果\varphi为凹函数,则:

\varphi(\frac{\sum a_{i}x_{i}}{\sum a_{i}})\geq \frac{\sum a_{i}\varphi(x_{i})}{\sum a_{i}}

当且仅当x_{1}=x_{2}=x_{3}=...=x_{n}时等号成立,或者\varphi为线性函数。

作为特殊情况,当正权重a_{i}都相等时,上述等式可以表示为:

\varphi(\frac{\sum x_{i}}{n})\leq \frac{\sum \varphi(x_{i})}{n}

\varphi(\frac{\sum x_{i}}{n})\geq \frac{\sum \varphi(x_{i})}{n}

琴生不等式可以用作证明一般情况的平均不等式:

\frac{x_{1}^{t}+x_{2}^{t}+\cdot\cdot\cdot+x_{n}^{t}}{n}\geq (\frac{x_{1}+x_{2}+\cdot\cdot\cdot+x_{n}}{n})^{t},(t>1)

\frac{x_{1}^{t}+x_{2}^{t}+\cdot\cdot\cdot+x_{n}^{t}}{n}\leq (\frac{x_{1}+x_{2}+\cdot\cdot\cdot+x_{n}}{n})^{t},(0<t<1)

(\frac{x_{1}+x_{2}+\cdot\cdot\cdot+x_{n}}{n})^{n}\geq x_{1}x_{2}\cdot\cdot\cdot x_{n}

其中前面两个取f(x)=x^{t},后面一个取f(x)=log(x)

一个常见的应用是将 x 作为另一个变量(或一组变量)t的函数x_{i}=g(t_{i})。 所有这些都直接适用于一般连续情况:权重a_{i}被非负可积函数f(x)代替,例如概率分布,并且总和被积分代替。

测度与概率形式

(\Omega,A,\mu)是一个概率空间,\mu(\Omega)=1。如果g是一个实数函数,且对于\mu可积,另外如果\varphi是一个在实线域上是凸函数,则:

\varphi(\int_{\Omega}gd\mu)\leq\int_{\Omega}\varphi\circ gd\mu

在实分析中,我们可能需要对下式做一个估计:

\varphi(\int^{b}_{a}f(x)dx)

其中a,b\in \mathbb{R}f:[a,b]\rightarrow\mathbb{R}是非负勒贝格积分函数。在这种情况下,勒贝格测度[a,b]不用是统一的。但是,通过作代换积分,可以重新调整区间以使其具有度量单位,那么可以应用Jensen不等式得到:

\varphi(\frac{1}{b-a}\int^{b}_{a}f(x)dx)\leq\frac{1}{b-a}\int^{b}_{a}\varphi(f(x))dx

通过简单的符号变化,可以在概率论中等效地陈述相同的结果。 令(\Omega,F,P)为概率空间,X为可积实值随机变量,φ为凸函数。 则:

\varphi(E[X])\leq E[\varphi(X)]

在这个概率定义中,测度μ的目的是作为概率P,关于μ作为期望值的积分,以及作为随机变量X的函数g。

注意等式成立当且仅当 φ 是某个凸集A上的线性函数,使得P(X\in A)=1

在概率论中的广义形式

更一般地,设T为实拓扑向量空间,X为T值可积随机变量。在这个一般设置中,可积意味着在T中存在一个元素E[X],使得对于T的对偶空间(dual space)中的任何元素 z: E|\left \langle z,X \right \rangle|< \infty\left \langle z,E[X] \right \rangle=E[\left \langle z,X \right \rangle]。然后,对于任何可测凸函数 φ 和F的任何子 σ-代数\mathfrak {G}

\varphi(E[X|\mathfrak {G} ])\leq E[\varphi(X)|\mathfrak {G} ]

这里E[\cdot|\mathfrak {G} ]代表以 σ-代数\mathfrak {G}为条件的期望。当拓扑向量空间T是实轴,并且\mathfrak {G}是平凡的σ-代数 {∅, Ω}(其中∅是空集,Ω是样本空间),这个一般性陈述简化为以前的陈述。

一种锐化和概括的形式

设X是一维随机变量,均值为\mu,方差为\sigma^{2}\geq0。令\varphi(x)为二次可微函数,并定义函数:

h(x)\triangleq \frac{\varphi(x)-\varphi(\mu)}{(x-\mu)^{2}}- \frac{\varphi'(\mu)}{x-\mu}

然后:

\sigma^{2}inf\frac{\varphi''(x)}{2}\leq\sigma^{2}infh(x)\leq E[\varphi(X)]-\varphi(E[X])\leq\sigma^{2}suph(x)\leq\sigma^{2}sup\frac{\varphi''(x)}{2}

特别地,当\varphi(x)是凸的,那么\varphi''(x)\geq0。对于\varphi(x)被另外假设为二次可微的情况,自然而然能够得出标准的Jensen 不等式的形式。

不等式证明

Jensen 不等式可以通过多种方式证明,并且将提供对应于上述不同陈述的三种不同证明。

然而,在开始这些数学推导之前,有必要分析基于概率情况的直观图形论证,其中X是实数(见上图)。假设X值的分布,人们可以立即确定E[X]及其图像φ(E[X])在图中的位置。注意到对于凸映射Y = φ(X),随着X值的增加,Y值的相应分布越来越“伸展”,很容易看出Y的分布在对应于X>X_{0}的区间中更宽,并且对于任何X_{0},在X<X_{0}处更窄;特别是,对于X_{0}=E[X]也是如此。因此,在这张图片中,Y的期望总是相对于\varphi(E[X])的位置向上移动。如果X的分布覆盖了凸函数的递减部分,或者同时覆盖了凸函数的递减部分和递增部分,则类似的推理成立。这“证明”了不等式:

\varphi(E[X])\leq E[\varphi(X)]=E[Y]

等式成立仅当 φ(X) 不是严格凸的时,例如当它是一条直线时,或者当 X 遵循退化分布(即是一个常数)时。

有限形式

测度和概率形式

概率论中的广义形式

 

不等式应用

在概率密度函数中的形式

假设\Omega是实线的可测子集,f(x)是一个非负函数:

\int^{\infty}_{-\infty}f(x)dx=1

在概率论中f(x)是概率密度函数。利用Jensen不等式的加权形式,可以写出f(x)形式下的公式。

如果g是任何实值可测函数且\varphi在g的范围内是凸的,那么:

\varphi(\int^{\infty}_{-\infty}g(x)f(x)dx)\leqslant \int^{\infty}_{-\infty}\varphi[g(x)]f(x)dx

如果g(x)=x,那么这种不等式的形式可以简化为一个常用的特例:

\varphi(\int^{\infty}_{-\infty}xf(x)dx)\leqslant \int^{\infty}_{-\infty}\varphi[x]f(x)dx

这个结果一般被应用于变分贝叶斯方法(Variational Bayesian methods)。

随机变量的偶次矩

如果g(x)=x^{2n},X是一个随机变量,g是一个凸函数:

\frac{d^{2}g}{dx^{2}}(x)=2n(2n-1)x^{2n-2}\geq 0

二阶导数大于0,为凸函数,于是有:

g(E[X])=(E[X])^{2n}\leq E[X^{2n}]

特别的,如果X的偶次矩是有限的,X具有有限的均值。这个结论可以推广为:X的l/n (l \in N)次矩是有限的。

其他有限形式

\Omega=\{x_{1},...,x_{n}\},取\mu为其上的测度,则一般的形式可以化简为求和的形式:

\varphi(\sum^{n}_{i=1}g(x_{i})\lambda_{i})\leq\sum^{n}_{i=1}\varphi(g(x_{i}))\lambda_{i}

前提是:

\lambda_{i}\geq 0

\lambda_{1}+ \cdot\cdot\cdot +\lambda_{n} = 1

这里也有无限的离散形式。

统计物理

在统计物理中考虑一个指数型的凸函数:

e^{E[X]}\leq E[e^{X}]

其中期望值为某个分布下的随机变量X的值。

上述公式证明比较简单,首先:

E[e^{X}]=e^{E[X]}E[e^{X-E[X]}]

然后利用已有公式e^{X}\geq1+X

e^{X-E[X]}\geq1+X-E[X]

代入前式得:

E[e^{X}]\geq e^{E[X]}E[1+X-E[X]]=e^{E[X]}

信息论

如果p(x)是X的概率密度,q(x)是另一个概率密度,对随机变量Y(X)=q(X)/p(X)应用琴生不等式,则E[\varphi(Y)]\geq\varphi(E[Y])

因而:

-D(p(x)||q(x)))\\=\int p(x)log(\frac{q(x)}{p(x)})dx\leq log(\int p(x)\frac{q(x)}{p(x)}dx) \\= log(\int q(x)dx)=0

这个结果被称为吉布斯不等式(Gibbs' inequality)

它表明当基于真实概率p而不是任何其他分布q分配代码时,平均消息长度最小。非负的数量称为q与p的Kullback-Leibler散度。由于-log(x)是x>0的严格凸函数,因此当p(x)几乎处处等于q(x)时,等式成立。

Rao–Blackwell定理

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 7
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值