函数凸性与Jensen不等式

最新推荐文章于 2023-04-17 18:41:42 发布

江景页

最新推荐文章于 2023-04-17 18:41:42 发布

阅读量2.3k

点赞数 1

文章标签：数学分析

本文链接：https://blog.csdn.net/jingye333/article/details/109222844

版权

函数凸性与Jensen不等式

1.函数凸性的定义

根据函数的形态，将函数分为上凸函数与下凸函数，定义如下。

设 $f (x)$ 在区间 $I$ 上定义，如果对 $I$ 中的任意两点 $x_1$ 和 $x_2$ 和任意 $\lambda \in (0,1)$ ，都有
$f(\lambda x_1+(1-\lambda )x_2)\le \lambda f(x_1)+(1-\lambda)f(x_2),$
则称 $f (x)$ 是 $I$ 上的下凸函数。

如果
$f(\lambda x_1+(1-\lambda )x_2)\ge \lambda f(x_1)+(1-\lambda)f(x_2),$
则称 $f (x)$ 是 $I$ 上的上凸函数。

如果将不等式中的不等号改为严格不等号，则将 $f (x)$ 称为严格下凸函数、严格上凸函数。

从定义上看， $\lambda a+(1-\lambda )b$ 指的是 $a, b$ 的加权和，在图像上 $\lambda x_1+(1-\lambda )x_2$ 就是 $x_1,x_2$ 中的任意一点，而 $\lambda f(x_1)+(1-\lambda )f(x_2)$ 是 $f(x_1),f(x_2)$ 中的对应点。注意到，定义上凸、下凸函数只从曲线和直线上点的大小关系，与导数不存在任何联系。

但是当函数存在二阶导时，二阶导与函数凸性存在联系。

设 $f (x)$ 在区间 $I$ 上二阶可导，则 $f (x)$ 在区间 $I$ 上是下凸函数的充分必要条件是，对于任何 $x\in I$ ，有 $f''(x)\ge 0$ ；类似地是上凸函数的充分必要条件是对于任何 $x\in I$ ，有 $f''(x)\le 0$ 。

证明：先证必要性，再证充分性。

必要性即由下凸推出 $f''(x)\ge 0$ 。因为下凸，所以对于任何 $\Delta x\ge0$ ，取 $\lambda =1/2$ ，有
$\frac{f(x-\Delta x)+f(x+\Delta x)}{2}\ge f(x),$
也就是
${f(x+\Delta x)-f(x)}\ge {f(x)-f(x-\Delta x)}.$
对于 $\forall x_1<x_2\in I$ ，令 $\Delta x_n=\frac{x_2-x_1}{n}$ ，有
$f(x_2)-f(x_2-\Delta x_n)\ge f(x_2-\Delta x_n)-f(x_2-2\Delta x_n)\ge \cdots \ge f(x_1+\Delta x_n)-f(x_1).$
令 $n\to \infty$ ，则有 $\Delta x_n\to 0$ ，在上式首尾两端同时除去 $\Delta x_n$ 并取极限，就得到
$f'(x_2)\ge f'(x_1).$
这就得到 $f^{'} (x)$ 在 $I$ 上单调递增， $f''(x)\ge 0,x\in I$ 。

这里常见的误区是，直接应用两次拉格朗日中值定理，再由 $\Delta x\to0$ 推出 $f''(x)\ge 0$ ，因为不能保证二阶导的连续性，自然不能用极限。

再证充分性，即通过 $f''(x)\ge 0$ 推出下凸。因为 $f''(x)\ge 0$ ， $f^{'} (x)$ 在 $I$ 上单调增加。 $\forall x_1<x_2\in I$ 以及 $\lambda \in (0,1)$ ，取 $x_0=\lambda x_1+(1-\lambda )x_2$ ，那么 $x_1<x_0<x_2$ ，且
$x_1-x_0=(1-\lambda)(x_1-x_2),x_2-x_0=\lambda(x_2-x_1).$
分别运用Lagrange中值定理，结合 $f^{'} (x)$ 的单调性有
$f(x_1)\ge f(x_0)+f'(x_0)(x_1-x_0)=f(x_0)+(1-\lambda)f'(x_0)(x_1-x_2),\\ f(x_2)\ge f(x_0)+f'(x_0)(x_2-x_0)=f(x_0)+\lambda f'(x_0)(x_2-x_1).$
将上式乘以 $\lambda$ ，下式乘以 $(1-\lambda)$ 再相加，就有
$\lambda f(x_1)+(1-\lambda)f(x_2)\ge f(x_0)=f(\lambda x_1+(1-\lambda )x_2).$
这就证明了 $f (x)$ 的下凸性。整个证明，最重要的是利用 $f''(x)\ge 0$ 与 $f^{'} (x)$ 单调递增的等价性完成替换。

2.拐点

曲线的拐点是上凸和下凸的分界点，有如下定理叙述拐点的位置

设 $f (x)$ 在区间 $I$ 上连续， $(x_0-\delta,x_0+\delta)\sub I$ ，则

设 $f (x)$ 在 $(x_0-\delta,x_0)$ 与 $(x_0,x_0+\delta)$ 上二阶可导。若 $f^{''} (x)$ 在 $(x_0-\delta,x_0)$ 与 $(x_0,x_0+\delta)$ 上的符号相反，则 $x_0,f(x_0))$ 是曲线 $y = f (x)$ 的拐点；若 $f^{''} (x)$ 在 $(x_0-\delta,x_0)$ 与 $(x_0,x_0+\delta)$ 上的符号相同，则 $x_0,f(x_0))$ 不是曲线 $y = f (x)$ 的拐点。
设 $f (x)$ 在 $(x_0-\delta,x_0+\delta)$ 上二阶可导，若点 $x_0,f(x_0))$ 是曲线 $y = f (x)$ 的拐点，则 $f^{''} (x) = 0$ 。

结论1中，如果在双侧邻域上符号相反，则在一侧上凸一侧下凸，显然 $x_0,f(x_0))$ 是曲线的拐点。

结论2中，如果 $x_0,f(x_0))$ 是拐点，则在一侧上凸、一侧下凸，在上凸侧 $f^{'} (x)$ 单调递减，在下凸侧 $f^{'} (x)$ 单调递增，所以 $f'(x_0)$ 是极值点，由 $f''(x_0)$ 的存在性与Fermat引理， $f^{''} (x) = 0$ 。

3.Jensen不等式

Jensen不等式：若 $f (x)$ 为区间 $I$ 上的下凸函数，则对任意 $x_i\in I$ 和满足 $\sum_i\lambda_i=1$ 的 $\lambda_i>0(i=1,2,\cdots,n)$ ，成立
$f\left(\sum_{i=1}^n \lambda_ix_i \right)\le \sum_{i=1}^n\lambda_if(x_i).$
如果是上凸函数，则不等号方向改变。

证明：当 $n = 1$ 时结论显然成立为 $f(x_1)=f(x_1)$ 。现假设当 $n = k$ 时结论成立，即 $\sum\limits_{i=1}^k\lambda_i=1$ ，有
$f\left(\sum_{i=1}^k \lambda_ix_i \right)\le \sum_{i=1}^k \lambda_if(x_i),$
则 $\forall \lambda_{k+1}'\in (0,1)$ ，令 $\lambda_i'=\lambda_i(1-\lambda_{k+1}')$ ，这样 $\sum\limits_{i=1}^{k+1}\lambda_i'=1$ ，且
$\begin{aligned} &f\left(\sum_{i=1}^{k+1}\lambda_i'x_i \right)\\ =&f\left((1-\lambda_{k+1}')\sum_{i=1}^k\frac{\lambda_i'}{1-\lambda_{k+1}'}x_i+\lambda_{k+1}'x_{k+1} \right)\\ \le& (1-\lambda_{k+1}')f\left(\sum_{i=1}^k\lambda_ix_i \right)+\lambda'_{k+1}x_{k+1}\\ \le& \sum_{i=1}^k\lambda_i(1-\lambda'_{k+1})x_i+\lambda'_{k+1}x_{k+1}\\ =&\sum_{i=1}^{k+1}\lambda_{i}'x_i. \end{aligned}$

这就证明了结论。

4.Jensen不等式的应用

1.证明： $\forall a,b>0$ ，
$a\ln a+b\ln b\ge (a+b)[\ln (a+b)-\ln 2].$

设 $f(x)=x\ln x$ ，则
$f'(x)=\ln x+1,\quad f''(x)=\frac 1x>0,$
所以 $f (x)$ 是下凸函数，由Jensen不等式有
$f(\frac{a+b}2)\le \frac 12[f(a)+f(b)],$
整理得
$\frac{a+b}{2}[\ln (a+b)-\ln 2]\le \frac 12[a\ln a+b\ln b],$
这就证得了原结论。并且原结论可以拓展为，对于 $x_1,\cdots,x_n>0$ ，成立
$\sum_{i=1}^n x_i\ln x_i\ge \sum_{i=1}^n x_i\left[\ln\sum_{i=1 }^n x_i-\ln n \right].$

2.证明： $\forall a,b\ge 0$ ， $p, q$ 满足 $\frac 1p+\frac 1q=1$ ，证明
$ab\le \frac 1pa^p+\frac 1qb^q.$

给定 $\frac 1p+\frac 1q=1$ 的条件，显然是想作为权重，因此要找到合适的上凸或下凸函数联系左右两端。注意到具有指数，所以想应用 $f(x)=\ln x$ 。这显然是一个上凸函数，所以有
$f\left(\frac 1pa^p+\frac 1qb^q \right)\ge \frac 1p f(a^p)+\frac 1qf(b^q),\quad a,b\ne0.$
整理得到
$\frac 1pa^p+\frac 1qb^q\ge e^{\ln a+\ln b}=ab,\quad a,b\ne0.$
而对于 $a, b$ 中存在等于0的情况，这个不等式是显然成立的。

3.证明：如果 $a_1,\cdots,a_n$ 是不小于1的实数，证明：
$\frac 1{a_1+1}+\cdots+\frac {1}{a_n+1}\ge \frac {n}{\sqrt[n]{a_1\cdots a_n}+1}$

设 $a_i=e^{x_i},x_i\ge 0$ ，再令
$f(x)=\frac 1{e^x+1},f'(x)=\frac{-e^x}{(e^x+1)^2},f''(x)=-\frac{e^x(e^x-1)}{(e^x+1)^3}\ge0,$
所以 $f (x)$ 是下凸函数，有
$f\left(\frac{x_1+\cdots+x_n}n \right)\le \frac 1n\left[f(x_1)+\cdots+f(x_n) \right]$
即
$\frac {1}{\sqrt[n]{e^{x_1}\cdots e^{x_n}}+1}\le \frac 1n\left(\frac{1}{e^{x_1}+1}+\cdots+\frac 1{e^{x_n}+1} \right),$
也就是
$\frac n{\sqrt[n]{a_1\cdots a_n}+1}\le \frac{1}{a_1+1}+\cdots+\frac 1{a_n+1}.$

4.设正实数 $a_1,\cdots,a_n$ 满足 $\sum a_i=1$ ，求证：
$\prod_{i=1}^n \frac{1+a_i}{a_i}\ge \prod_{i=1}^n\frac{n-a_i}{1-a_i}.$

设
$f(x)=\ln (\frac {x+1}x),f'(x)=\frac 1{1+x}-\frac 1x,f''(x)=-\frac{1}{(1+x)^2}+\frac 1{x^2}>0,$
所以 $f (x)$ 是下凸函数。为了构造出 $n-a_i$ 项，我们对每一个不含 $i$ 的项，有
$\frac1{n-1}\sum_{j\ne i} f(a_j)\ge f\left(\frac{\sum_{j\ne i}a_j}{n-1} \right),$
即
$\prod_{j\ne i}\frac{a_j+1}{a_j}\ge \left(1+\frac{n-1}{\sum_{j\ne i}a_j} \right)^{n-1}=\left(\frac{n-a_i}{1-a_i} \right)^{n-1}.$
对每个 $i$ 的这个式子相乘并开 $n - 1$ 次方，就得到
$\prod_{i=1}^n \frac{a_i+1}{a_i}\ge \prod_{i=1}^n\left(\frac{n-a_i}{1-a_i} \right).$