函数凸性与Jensen不等式
1.函数凸性的定义
根据函数的形态,将函数分为上凸函数与下凸函数,定义如下。
设 f ( x ) f(x) f(x)在区间 I I I上定义,如果对 I I I中的任意两点 x 1 x_1 x1和 x 2 x_2 x2和任意 λ ∈ ( 0 , 1 ) \lambda \in (0,1) λ∈(0,1),都有
f ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) , f(\lambda x_1+(1-\lambda )x_2)\le \lambda f(x_1)+(1-\lambda)f(x_2), f(λx1+(1−λ)x2)≤λf(x1)+(1−λ)f(x2),
则称 f ( x ) f(x) f(x)是 I I I上的下凸函数。如果
f ( λ x 1 + ( 1 − λ ) x 2 ) ≥ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) , f(\lambda x_1+(1-\lambda )x_2)\ge \lambda f(x_1)+(1-\lambda)f(x_2), f(λx1+(1−λ)x2)≥λf(x1)+(1−λ)f(x2),
则称 f ( x ) f(x) f(x)是 I I I上的上凸函数。如果将不等式中的不等号改为严格不等号,则将 f ( x ) f(x) f(x)称为严格下凸函数、严格上凸函数。
从定义上看, λ a + ( 1 − λ ) b \lambda a+(1-\lambda )b λa+(1−λ)b指的是 a , b a,b a,b的加权和,在图像上 λ x 1 + ( 1 − λ ) x 2 \lambda x_1+(1-\lambda )x_2 λx1+(1−λ)x2就是 x 1 , x 2 x_1,x_2 x1,x2中的任意一点,而 λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) \lambda f(x_1)+(1-\lambda )f(x_2) λf(x1)+(1−λ)f(x2)是 f ( x 1 ) , f ( x 2 ) f(x_1),f(x_2) f(x1),f(x2)中的对应点。注意到,定义上凸、下凸函数只从曲线和直线上点的大小关系,与导数不存在任何联系。
但是当函数存在二阶导时,二阶导与函数凸性存在联系。
设 f ( x ) f(x) f(x)在区间 I I I上二阶可导,则 f ( x ) f(x) f(x)在区间 I I I上是下凸函数的充分必要条件是,对于任何 x ∈ I x\in I x∈I,有 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f′′(x)≥0;类似地是上凸函数的充分必要条件是对于任何 x ∈ I x\in I x∈I,有 f ′ ′ ( x ) ≤ 0 f''(x)\le 0 f′′(x)≤0。
证明:先证必要性,再证充分性。
必要性即由下凸推出
f
′
′
(
x
)
≥
0
f''(x)\ge 0
f′′(x)≥0。因为下凸,所以对于任何
Δ
x
≥
0
\Delta x\ge0
Δx≥0,取
λ
=
1
/
2
\lambda =1/2
λ=1/2,有
f
(
x
−
Δ
x
)
+
f
(
x
+
Δ
x
)
2
≥
f
(
x
)
,
\frac{f(x-\Delta x)+f(x+\Delta x)}{2}\ge f(x),
2f(x−Δx)+f(x+Δx)≥f(x),
也就是
f
(
x
+
Δ
x
)
−
f
(
x
)
≥
f
(
x
)
−
f
(
x
−
Δ
x
)
.
{f(x+\Delta x)-f(x)}\ge {f(x)-f(x-\Delta x)}.
f(x+Δx)−f(x)≥f(x)−f(x−Δx).
对于
∀
x
1
<
x
2
∈
I
\forall x_1<x_2\in I
∀x1<x2∈I,令
Δ
x
n
=
x
2
−
x
1
n
\Delta x_n=\frac{x_2-x_1}{n}
Δxn=nx2−x1,有
f
(
x
2
)
−
f
(
x
2
−
Δ
x
n
)
≥
f
(
x
2
−
Δ
x
n
)
−
f
(
x
2
−
2
Δ
x
n
)
≥
⋯
≥
f
(
x
1
+
Δ
x
n
)
−
f
(
x
1
)
.
f(x_2)-f(x_2-\Delta x_n)\ge f(x_2-\Delta x_n)-f(x_2-2\Delta x_n)\ge \cdots \ge f(x_1+\Delta x_n)-f(x_1).
f(x2)−f(x2−Δxn)≥f(x2−Δxn)−f(x2−2Δxn)≥⋯≥f(x1+Δxn)−f(x1).
令
n
→
∞
n\to \infty
n→∞,则有
Δ
x
n
→
0
\Delta x_n\to 0
Δxn→0,在上式首尾两端同时除去
Δ
x
n
\Delta x_n
Δxn并取极限,就得到
f
′
(
x
2
)
≥
f
′
(
x
1
)
.
f'(x_2)\ge f'(x_1).
f′(x2)≥f′(x1).
这就得到
f
′
(
x
)
f'(x)
f′(x)在
I
I
I上单调递增,
f
′
′
(
x
)
≥
0
,
x
∈
I
f''(x)\ge 0,x\in I
f′′(x)≥0,x∈I。
这里常见的误区是,直接应用两次拉格朗日中值定理,再由 Δ x → 0 \Delta x\to0 Δx→0推出 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f′′(x)≥0,因为不能保证二阶导的连续性,自然不能用极限。
再证充分性,即通过
f
′
′
(
x
)
≥
0
f''(x)\ge 0
f′′(x)≥0推出下凸。因为
f
′
′
(
x
)
≥
0
f''(x)\ge 0
f′′(x)≥0,
f
′
(
x
)
f'(x)
f′(x)在
I
I
I上单调增加。
∀
x
1
<
x
2
∈
I
\forall x_1<x_2\in I
∀x1<x2∈I以及
λ
∈
(
0
,
1
)
\lambda \in (0,1)
λ∈(0,1),取
x
0
=
λ
x
1
+
(
1
−
λ
)
x
2
x_0=\lambda x_1+(1-\lambda )x_2
x0=λx1+(1−λ)x2,那么
x
1
<
x
0
<
x
2
x_1<x_0<x_2
x1<x0<x2,且
x
1
−
x
0
=
(
1
−
λ
)
(
x
1
−
x
2
)
,
x
2
−
x
0
=
λ
(
x
2
−
x
1
)
.
x_1-x_0=(1-\lambda)(x_1-x_2),x_2-x_0=\lambda(x_2-x_1).
x1−x0=(1−λ)(x1−x2),x2−x0=λ(x2−x1).
分别运用Lagrange中值定理,结合
f
′
(
x
)
f'(x)
f′(x)的单调性有
f
(
x
1
)
≥
f
(
x
0
)
+
f
′
(
x
0
)
(
x
1
−
x
0
)
=
f
(
x
0
)
+
(
1
−
λ
)
f
′
(
x
0
)
(
x
1
−
x
2
)
,
f
(
x
2
)
≥
f
(
x
0
)
+
f
′
(
x
0
)
(
x
2
−
x
0
)
=
f
(
x
0
)
+
λ
f
′
(
x
0
)
(
x
2
−
x
1
)
.
f(x_1)\ge f(x_0)+f'(x_0)(x_1-x_0)=f(x_0)+(1-\lambda)f'(x_0)(x_1-x_2),\\ f(x_2)\ge f(x_0)+f'(x_0)(x_2-x_0)=f(x_0)+\lambda f'(x_0)(x_2-x_1).
f(x1)≥f(x0)+f′(x0)(x1−x0)=f(x0)+(1−λ)f′(x0)(x1−x2),f(x2)≥f(x0)+f′(x0)(x2−x0)=f(x0)+λf′(x0)(x2−x1).
将上式乘以
λ
\lambda
λ,下式乘以
(
1
−
λ
)
(1-\lambda)
(1−λ)再相加,就有
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
≥
f
(
x
0
)
=
f
(
λ
x
1
+
(
1
−
λ
)
x
2
)
.
\lambda f(x_1)+(1-\lambda)f(x_2)\ge f(x_0)=f(\lambda x_1+(1-\lambda )x_2).
λf(x1)+(1−λ)f(x2)≥f(x0)=f(λx1+(1−λ)x2).
这就证明了
f
(
x
)
f(x)
f(x)的下凸性。整个证明,最重要的是利用
f
′
′
(
x
)
≥
0
f''(x)\ge 0
f′′(x)≥0与
f
′
(
x
)
f'(x)
f′(x)单调递增的等价性完成替换。
2.拐点
曲线的拐点是上凸和下凸的分界点,有如下定理叙述拐点的位置
设 f ( x ) f(x) f(x)在区间 I I I上连续, ( x 0 − δ , x 0 + δ ) ⊂ I (x_0-\delta,x_0+\delta)\sub I (x0−δ,x0+δ)⊂I,则
- 设 f ( x ) f(x) f(x)在 ( x 0 − δ , x 0 ) (x_0-\delta,x_0) (x0−δ,x0)与 ( x 0 , x 0 + δ ) (x_0,x_0+\delta) (x0,x0+δ)上二阶可导。若 f ′ ′ ( x ) f''(x) f′′(x)在 ( x 0 − δ , x 0 ) (x_0-\delta,x_0) (x0−δ,x0)与 ( x 0 , x 0 + δ ) (x_0,x_0+\delta) (x0,x0+δ)上的符号相反,则 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是曲线 y = f ( x ) y=f(x) y=f(x)的拐点;若 f ′ ′ ( x ) f''(x) f′′(x)在 ( x 0 − δ , x 0 ) (x_0-\delta,x_0) (x0−δ,x0)与 ( x 0 , x 0 + δ ) (x_0,x_0+\delta) (x0,x0+δ)上的符号相同,则 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))不是曲线 y = f ( x ) y=f(x) y=f(x)的拐点。
- 设 f ( x ) f(x) f(x)在 ( x 0 − δ , x 0 + δ ) (x_0-\delta,x_0+\delta) (x0−δ,x0+δ)上二阶可导,若点 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是曲线 y = f ( x ) y=f(x) y=f(x)的拐点,则 f ′ ′ ( x ) = 0 f''(x)=0 f′′(x)=0。
结论1中,如果在双侧邻域上符号相反,则在一侧上凸一侧下凸,显然 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是曲线的拐点。
结论2中,如果 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是拐点,则在一侧上凸、一侧下凸,在上凸侧 f ′ ( x ) f'(x) f′(x)单调递减,在下凸侧 f ′ ( x ) f'(x) f′(x)单调递增,所以 f ′ ( x 0 ) f'(x_0) f′(x0)是极值点,由 f ′ ′ ( x 0 ) f''(x_0) f′′(x0)的存在性与Fermat引理, f ′ ′ ( x ) = 0 f''(x)=0 f′′(x)=0。
3.Jensen不等式
Jensen不等式:若 f ( x ) f(x) f(x)为区间 I I I上的下凸函数,则对任意 x i ∈ I x_i\in I xi∈I和满足 ∑ i λ i = 1 \sum_i\lambda_i=1 ∑iλi=1的 λ i > 0 ( i = 1 , 2 , ⋯ , n ) \lambda_i>0(i=1,2,\cdots,n) λi>0(i=1,2,⋯,n),成立
f ( ∑ i = 1 n λ i x i ) ≤ ∑ i = 1 n λ i f ( x i ) . f\left(\sum_{i=1}^n \lambda_ix_i \right)\le \sum_{i=1}^n\lambda_if(x_i). f(i=1∑nλixi)≤i=1∑nλif(xi).
如果是上凸函数,则不等号方向改变。
证明:当
n
=
1
n=1
n=1时结论显然成立为
f
(
x
1
)
=
f
(
x
1
)
f(x_1)=f(x_1)
f(x1)=f(x1)。现假设当
n
=
k
n=k
n=k时结论成立,即
∑
i
=
1
k
λ
i
=
1
\sum\limits_{i=1}^k\lambda_i=1
i=1∑kλi=1,有
f
(
∑
i
=
1
k
λ
i
x
i
)
≤
∑
i
=
1
k
λ
i
f
(
x
i
)
,
f\left(\sum_{i=1}^k \lambda_ix_i \right)\le \sum_{i=1}^k \lambda_if(x_i),
f(i=1∑kλixi)≤i=1∑kλif(xi),
则
∀
λ
k
+
1
′
∈
(
0
,
1
)
\forall \lambda_{k+1}'\in (0,1)
∀λk+1′∈(0,1),令
λ
i
′
=
λ
i
(
1
−
λ
k
+
1
′
)
\lambda_i'=\lambda_i(1-\lambda_{k+1}')
λi′=λi(1−λk+1′),这样
∑
i
=
1
k
+
1
λ
i
′
=
1
\sum\limits_{i=1}^{k+1}\lambda_i'=1
i=1∑k+1λi′=1,且
f
(
∑
i
=
1
k
+
1
λ
i
′
x
i
)
=
f
(
(
1
−
λ
k
+
1
′
)
∑
i
=
1
k
λ
i
′
1
−
λ
k
+
1
′
x
i
+
λ
k
+
1
′
x
k
+
1
)
≤
(
1
−
λ
k
+
1
′
)
f
(
∑
i
=
1
k
λ
i
x
i
)
+
λ
k
+
1
′
x
k
+
1
≤
∑
i
=
1
k
λ
i
(
1
−
λ
k
+
1
′
)
x
i
+
λ
k
+
1
′
x
k
+
1
=
∑
i
=
1
k
+
1
λ
i
′
x
i
.
\begin{aligned} &f\left(\sum_{i=1}^{k+1}\lambda_i'x_i \right)\\ =&f\left((1-\lambda_{k+1}')\sum_{i=1}^k\frac{\lambda_i'}{1-\lambda_{k+1}'}x_i+\lambda_{k+1}'x_{k+1} \right)\\ \le& (1-\lambda_{k+1}')f\left(\sum_{i=1}^k\lambda_ix_i \right)+\lambda'_{k+1}x_{k+1}\\ \le& \sum_{i=1}^k\lambda_i(1-\lambda'_{k+1})x_i+\lambda'_{k+1}x_{k+1}\\ =&\sum_{i=1}^{k+1}\lambda_{i}'x_i. \end{aligned}
=≤≤=f(i=1∑k+1λi′xi)f((1−λk+1′)i=1∑k1−λk+1′λi′xi+λk+1′xk+1)(1−λk+1′)f(i=1∑kλixi)+λk+1′xk+1i=1∑kλi(1−λk+1′)xi+λk+1′xk+1i=1∑k+1λi′xi.
这就证明了结论。
4.Jensen不等式的应用
1.证明: ∀ a , b > 0 \forall a,b>0 ∀a,b>0,
a ln a + b ln b ≥ ( a + b ) [ ln ( a + b ) − ln 2 ] . a\ln a+b\ln b\ge (a+b)[\ln (a+b)-\ln 2]. alna+blnb≥(a+b)[ln(a+b)−ln2].
设
f
(
x
)
=
x
ln
x
f(x)=x\ln x
f(x)=xlnx,则
f
′
(
x
)
=
ln
x
+
1
,
f
′
′
(
x
)
=
1
x
>
0
,
f'(x)=\ln x+1,\quad f''(x)=\frac 1x>0,
f′(x)=lnx+1,f′′(x)=x1>0,
所以
f
(
x
)
f(x)
f(x)是下凸函数,由Jensen不等式有
f
(
a
+
b
2
)
≤
1
2
[
f
(
a
)
+
f
(
b
)
]
,
f(\frac{a+b}2)\le \frac 12[f(a)+f(b)],
f(2a+b)≤21[f(a)+f(b)],
整理得
a
+
b
2
[
ln
(
a
+
b
)
−
ln
2
]
≤
1
2
[
a
ln
a
+
b
ln
b
]
,
\frac{a+b}{2}[\ln (a+b)-\ln 2]\le \frac 12[a\ln a+b\ln b],
2a+b[ln(a+b)−ln2]≤21[alna+blnb],
这就证得了原结论。并且原结论可以拓展为,对于
x
1
,
⋯
,
x
n
>
0
x_1,\cdots,x_n>0
x1,⋯,xn>0,成立
∑
i
=
1
n
x
i
ln
x
i
≥
∑
i
=
1
n
x
i
[
ln
∑
i
=
1
n
x
i
−
ln
n
]
.
\sum_{i=1}^n x_i\ln x_i\ge \sum_{i=1}^n x_i\left[\ln\sum_{i=1 }^n x_i-\ln n \right].
i=1∑nxilnxi≥i=1∑nxi[lni=1∑nxi−lnn].
2.证明: ∀ a , b ≥ 0 \forall a,b\ge 0 ∀a,b≥0, p , q p,q p,q满足 1 p + 1 q = 1 \frac 1p+\frac 1q=1 p1+q1=1,证明
a b ≤ 1 p a p + 1 q b q . ab\le \frac 1pa^p+\frac 1qb^q. ab≤p1ap+q1bq.
给定
1
p
+
1
q
=
1
\frac 1p+\frac 1q=1
p1+q1=1的条件,显然是想作为权重,因此要找到合适的上凸或下凸函数联系左右两端。注意到具有指数,所以想应用
f
(
x
)
=
ln
x
f(x)=\ln x
f(x)=lnx。这显然是一个上凸函数,所以有
f
(
1
p
a
p
+
1
q
b
q
)
≥
1
p
f
(
a
p
)
+
1
q
f
(
b
q
)
,
a
,
b
≠
0.
f\left(\frac 1pa^p+\frac 1qb^q \right)\ge \frac 1p f(a^p)+\frac 1qf(b^q),\quad a,b\ne0.
f(p1ap+q1bq)≥p1f(ap)+q1f(bq),a,b=0.
整理得到
1
p
a
p
+
1
q
b
q
≥
e
ln
a
+
ln
b
=
a
b
,
a
,
b
≠
0.
\frac 1pa^p+\frac 1qb^q\ge e^{\ln a+\ln b}=ab,\quad a,b\ne0.
p1ap+q1bq≥elna+lnb=ab,a,b=0.
而对于
a
,
b
a,b
a,b中存在等于0的情况,这个不等式是显然成立的。
3.证明:如果 a 1 , ⋯ , a n a_1,\cdots,a_n a1,⋯,an是不小于1的实数,证明:
1 a 1 + 1 + ⋯ + 1 a n + 1 ≥ n a 1 ⋯ a n n + 1 \frac 1{a_1+1}+\cdots+\frac {1}{a_n+1}\ge \frac {n}{\sqrt[n]{a_1\cdots a_n}+1} a1+11+⋯+an+11≥na1⋯an+1n
设
a
i
=
e
x
i
,
x
i
≥
0
a_i=e^{x_i},x_i\ge 0
ai=exi,xi≥0,再令
f
(
x
)
=
1
e
x
+
1
,
f
′
(
x
)
=
−
e
x
(
e
x
+
1
)
2
,
f
′
′
(
x
)
=
−
e
x
(
e
x
−
1
)
(
e
x
+
1
)
3
≥
0
,
f(x)=\frac 1{e^x+1},f'(x)=\frac{-e^x}{(e^x+1)^2},f''(x)=-\frac{e^x(e^x-1)}{(e^x+1)^3}\ge0,
f(x)=ex+11,f′(x)=(ex+1)2−ex,f′′(x)=−(ex+1)3ex(ex−1)≥0,
所以
f
(
x
)
f(x)
f(x)是下凸函数,有
f
(
x
1
+
⋯
+
x
n
n
)
≤
1
n
[
f
(
x
1
)
+
⋯
+
f
(
x
n
)
]
f\left(\frac{x_1+\cdots+x_n}n \right)\le \frac 1n\left[f(x_1)+\cdots+f(x_n) \right]
f(nx1+⋯+xn)≤n1[f(x1)+⋯+f(xn)]
即
1
e
x
1
⋯
e
x
n
n
+
1
≤
1
n
(
1
e
x
1
+
1
+
⋯
+
1
e
x
n
+
1
)
,
\frac {1}{\sqrt[n]{e^{x_1}\cdots e^{x_n}}+1}\le \frac 1n\left(\frac{1}{e^{x_1}+1}+\cdots+\frac 1{e^{x_n}+1} \right),
nex1⋯exn+11≤n1(ex1+11+⋯+exn+11),
也就是
n
a
1
⋯
a
n
n
+
1
≤
1
a
1
+
1
+
⋯
+
1
a
n
+
1
.
\frac n{\sqrt[n]{a_1\cdots a_n}+1}\le \frac{1}{a_1+1}+\cdots+\frac 1{a_n+1}.
na1⋯an+1n≤a1+11+⋯+an+11.
4.设正实数 a 1 , ⋯ , a n a_1,\cdots,a_n a1,⋯,an满足 ∑ a i = 1 \sum a_i=1 ∑ai=1,求证:
∏ i = 1 n 1 + a i a i ≥ ∏ i = 1 n n − a i 1 − a i . \prod_{i=1}^n \frac{1+a_i}{a_i}\ge \prod_{i=1}^n\frac{n-a_i}{1-a_i}. i=1∏nai1+ai≥i=1∏n1−ain−ai.
设
f
(
x
)
=
ln
(
x
+
1
x
)
,
f
′
(
x
)
=
1
1
+
x
−
1
x
,
f
′
′
(
x
)
=
−
1
(
1
+
x
)
2
+
1
x
2
>
0
,
f(x)=\ln (\frac {x+1}x),f'(x)=\frac 1{1+x}-\frac 1x,f''(x)=-\frac{1}{(1+x)^2}+\frac 1{x^2}>0,
f(x)=ln(xx+1),f′(x)=1+x1−x1,f′′(x)=−(1+x)21+x21>0,
所以
f
(
x
)
f(x)
f(x)是下凸函数。为了构造出
n
−
a
i
n-a_i
n−ai项,我们对每一个不含
i
i
i的项,有
1
n
−
1
∑
j
≠
i
f
(
a
j
)
≥
f
(
∑
j
≠
i
a
j
n
−
1
)
,
\frac1{n-1}\sum_{j\ne i} f(a_j)\ge f\left(\frac{\sum_{j\ne i}a_j}{n-1} \right),
n−11j=i∑f(aj)≥f(n−1∑j=iaj),
即
∏
j
≠
i
a
j
+
1
a
j
≥
(
1
+
n
−
1
∑
j
≠
i
a
j
)
n
−
1
=
(
n
−
a
i
1
−
a
i
)
n
−
1
.
\prod_{j\ne i}\frac{a_j+1}{a_j}\ge \left(1+\frac{n-1}{\sum_{j\ne i}a_j} \right)^{n-1}=\left(\frac{n-a_i}{1-a_i} \right)^{n-1}.
j=i∏ajaj+1≥(1+∑j=iajn−1)n−1=(1−ain−ai)n−1.
对每个
i
i
i的这个式子相乘并开
n
−
1
n-1
n−1次方,就得到
∏
i
=
1
n
a
i
+
1
a
i
≥
∏
i
=
1
n
(
n
−
a
i
1
−
a
i
)
.
\prod_{i=1}^n \frac{a_i+1}{a_i}\ge \prod_{i=1}^n\left(\frac{n-a_i}{1-a_i} \right).
i=1∏naiai+1≥i=1∏n(1−ain−ai).