§ 5 函数的凸性与拐点
读者已经熟悉函数 f ( x ) = x 2 f(x)=x^{2} f(x)=x2 和 f ( x ) = x f(x)=\sqrt{x} f(x)=x 的图像.
它们不同的特点是: 曲线 y = x 2 y=x^{2} y=x2 上任意两点间的弧段总在这两点连线的下方;
而曲线 y = x y=\sqrt{x} y=x 则相反,任意两点间的弧段总在这两点连线的上方.
我们把具有前一种特性的曲线称为凸的,
相应的函数称为凸函数;后一种曲线称为凹的,相应的函数称为凹函数.
定义 1 设 f f f 为定义在区间 I I I 上的函数, 若对 I I I 上的任意两点
x 1 , x 2 x_{1}, x_{2} x1,x2 和任意实数 λ \lambda λ ∈ ( 0 , 1 ) \in(0,1) ∈(0,1), 总有
f ( λ x 1 + ( 1 − λ ) x 2 ) ⩽ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) , f\left(\lambda x_{1}+(1-\lambda) x_{2}\right) \leqslant \lambda f\left(x_{1}\right)+(1-\lambda) f\left(x_{2}\right), f(λx1+(1−λ)x2)⩽λf(x1)+(1−λ)f(x2),
则称 f f f 为 I I I 上的凸函数. 反之, 如果总有
f ( λ x 1 + ( 1 − λ ) x 2 ) ⩾ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) , f\left(\lambda x_{1}+(1-\lambda) x_{2}\right) \geqslant \lambda f\left(x_{1}\right)+(1-\lambda) f\left(x_{2}\right), f(λx1+(1−λ)x2)⩾λf(x1)+(1−λ)f(x2),
则称 f f f 为 I I I 上的凹函数.
如果 (1)、(2) 中的不等式改为严格不等式,
则相应的函数称为严格凸函数和严格凹函数.
图 6-12 中的 (a) 和 (b) 分别是凸函数和凹函数的几何形状, 其中
x = λ x 1 + ( 1 − x=\lambda x_{1}+(1- x=λx1+(1− ג)
x 2 , A = f ( x 1 ) , B = f ( x 2 ) , C = λ A + ( 1 − λ ) B x_{2}, A=f\left(x_{1}\right), B=f\left(x_{2}\right), C=\lambda A+(1-\lambda) B x2,A=f(x1),B=f(x2),C=λA+(1−λ)B.
容易证明: 若 − f -f −f 为区间 I I I 上的凸函数, 则 f f f 为区间 I I I 上的凹函数.
因此, 今后只需讨论凸函数的性质即可.
引理 f f f 为 I I I 上的凸函数的充要条件是: 对于 I I I 上的任意三点
x 1 < x 2 < x 3 x_{1}<x_{2}<x_{3} x1<x2<x3, 总有
f ( x 2 ) − f ( x 1 ) x 2 − x 1 ⩽ f ( x 3 ) − f ( x 2 ) x 3 − x 2 . \frac{f\left(x_{2}\right)-f\left(x_{1}\right)}{x_{2}-x_{1}} \leqslant \frac{f\left(x_{3}\right)-f\left(x_{2}\right)}{x_{3}-x_{2}} . x2−x1f(x2)−f(x1)⩽x3−x2f(x3)−f(x2).
证 必要性 记 λ = x 3 − x 2 x 3 − x 1 \lambda=\frac{x_{3}-x_{2}}{x_{3}-x_{1}} λ=x3−x1x3−x2, 则
x 2 = λ x 1 + ( 1 − λ ) x 3 x_{2}=\lambda x_{1}+(1-\lambda) x_{3} x2=λx1+(1−λ)x3. 由 f f f 的凸性知道
f ( x 2 ) = f ( λ x 1 + ( 1 − λ ) x 3 ) ⩽ λ f ( x 1 ) + ( 1 − λ ) f ( x 3 ) f\left(x_{2}\right)=f\left(\lambda x_{1}+(1-\lambda) x_{3}\right) \leqslant \lambda f\left(x_{1}\right)+(1-\lambda) f\left(x_{3}\right) f(x2)=f(λx1+(1−λ)x3)⩽λf(x1)+(1−λ)f(x3)
{width=“186px”}
(a)
凸函数{width=“186px”}
(b) 凹 函数
图 6-12
= x 3 − x 2 x 3 − x 1 f ( x 1 ) + x 2 − x 1 x 3 − x 1 f ( x 3 ) , =\frac{x_{3}-x_{2}}{x_{3}-x_{1}} f\left(x_{1}\right)+\frac{x_{2}-x_{1}}{x_{3}-x_{1}} f\left(x_{3}\right), =x3−x1x3−x2f(x1)+x3−x1x2−x1f(x3),
从而有
( x 3 − x 1 ) f ( x 2 ) ⩽ ( x 3 − x 2 ) f ( x 1 ) + ( x 2 − x 1 ) f ( x 3 ) , ( x 3 − x 2 ) f ( x 2 ) + ( x 2 − x 1 ) f ( x 2 ) ⩽ ( x 3 − x 2 ) f ( x 1 ) + ( x 2 − x 1 ) f ( x 3 ) . \begin{array}{c} \left(x_{3}-x_{1}\right) f\left(x_{2}\right) \leqslant\left(x_{3}-x_{2}\right) f\left(x_{1}\right)+\left(x_{2}-x_{1}\right) f\left(x_{3}\right), \\ \left(x_{3}-x_{2}\right) f\left(x_{2}\right)+\left(x_{2}-x_{1}\right) f\left(x_{2}\right) \leqslant\left(x_{3}-x_{2}\right) f\left(x_{1}\right)+\left(x_{2}-x_{1}\right) f\left(x_{3}\right) . \end{array} (x3−x1)f(x2)⩽(x3−x2)f(x1)+(x2−x1)f(x3),(x3−x2)f(x2)+(x2−x1)f(x2)⩽(x3−x2)f(x1)+(x2−x1)f(x3).
整理后即得 ( 3 ) (3) (3) 式.
充分性 如图 6-13 所示, 在 I I I 上任取两点
x 1 , x 3 ( x 1 < x 3 ) x_{1}, x_{3}\left(x_{1}<x_{3}\right) x1,x3(x1<x3), 在 [ x 1 , x 3 ] \left[x_{1}, x_{3}\right] [x1,x3]
上任取一点 x 2 = λ x 1 + ( 1 − λ ) x 3 , λ ∈ ( 0 , 1 ) x_{2}=\lambda x_{1}+(1-\lambda) x_{3}, \lambda \in(0,1) x2=λx1+(1−λ)x3,λ∈(0,1), 即
λ = x 3 − x 2 x 3 − x 1 \lambda=\frac{x_{3}-x_{2}}{x_{3}-x_{1}} λ=x3−x1x3−x2. 由必要性的推导逆过程, 可推得
f ( λ x 1 + ( 1 − λ ) x 3 ) ⩽ λ f ( x 1 ) + ( 1 − λ ) f ( x 3 ) , f\left(\lambda x_{1}+(1-\lambda) x_{3}\right) \leqslant \lambda f\left(x_{1}\right)+(1-\lambda) f\left(x_{3}\right), f(λx1+(1−λ)x3)⩽λf(x1)+(1−λ)f(x3),
故 f f f 为 I I I 上的凸函数.
同理可证, f f f 为 I I I 上的凸函数的充要条件是: 对于 I I I 上任意三点
x 1 < x 2 < x 3 x_{1}<x_{2}<x_{3} x1<x2<x3, 有
f ( x 2 ) − f ( x 1 ) x 2 − x 1 ⩽ f ( x 3 ) − f ( x 1 ) x 3 − x 1 ⩽ f ( x 3 ) − f ( x 2 ) x 3 − x 2 . \begin{aligned} \frac{f\left(x_{2}\right)-f\left(x_{1}\right)}{x_{2}-x_{1}} & \leqslant \frac{f\left(x_{3}\right)-f\left(x_{1}\right)}{x_{3}-x_{1}} \\ & \leqslant \frac{f\left(x_{3}\right)-f\left(x_{2}\right)}{x_{3}-x_{2}} . \end{aligned} x2−x1f(x2)−f(x1)⩽x3−x1f(x3)−f(x1)⩽x3−x2f(x3)−f(x2).
{width=“186px”}
图 6-13
注 如果 f ( x ) f(x) f(x) 为 I I I 上的严格凸函数, 则不等式 (3) 和 (4) 中的
" ⩽ " " \leqslant "