凸函数二阶条件的证明

一阶条件为什么没写呢?因为Boyd那么书上写的很详细,但是二阶的书上没证。。。当然二阶的证明是基于一阶的结论的~

先从最简单的情况 f : R f: R f:R-> R R R证明,高维直接类比就行了。
首先将凸函数的定义以及一阶的结论列下来:(不管有没有用,先列下来?,对于你证明会有益处的,这是中科大的一个老师当时看我证明的吐槽?)
定义: f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)f(y) f(θx+(1θ)y)θf(x)+(1θ)f(y) ( 0 ≤ θ ≤ 1    a n d    d o m f   i s   c o n v e x ) (0\leq \theta \leq 1\ \ and\ \ domf\ is\ convex) (0θ1  and  domf is convex)
一阶条件: f ( x ) ≥ f ( y ) + f ′ ( y ) ( x − y ) f(x)\geq f(y)+f'(y)(x-y) f(x)f(y)+f(y)(xy)

充分性:
f ( y ) ≤ f ( x ) − f ′ ( y ) ( x − y ) f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) ( f ( x ) − f ′ ( y ) ( x − y ) ) f ( θ x + ( 1 − θ ) y ) − f ( x ) ≤ − ( 1 − θ ) f ′ ( y ) ( x − y ) f(y)\leq f(x)-f'(y)(x-y)\\ f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)(f(x)-f'(y)(x-y))\\ f(\theta x+(1-\theta)y)-f(x)\leq -(1-\theta)f'(y)(x-y) f(y)f(x)f(y)(xy)f(θx+(1θ)y)θf(x)+(1θ)(f(x)f(y)(xy))f(θx+(1θ)y)f(x)(1θ)f(y)(xy)
when x x x-> y y y
f ( θ x + ( 1 − θ ) y ) − f ( x ) = f ′ ( x ) ( 1 − θ ) ( y − x ) f ′ ( x ) ( 1 − θ ) ( x − y ) ≥ ( 1 − θ ) f ′ ( y ) ( x − y ) f ′ ( x ) − f ′ ( y ) x − y ≥ 0 f(\theta x+(1-\theta)y)-f(x)=f'(x)(1-\theta)(y-x)\\ f'(x)(1-\theta )(x-y)\geq (1-\theta)f'(y)(x-y)\\ \frac{f'(x)-f'(y)}{x-y}\geq 0 f(θx+(1θ)y)f(x)=f(x)(1θ)(yx)f(x)(1θ)(xy)(1θ)f(y)(xy)xyf(x)f(y)0

得证: f ′ ′ ( x ) ≥ 0 f''(x)\geq 0 f(x)0

必要性:
f ′ ′ ( x ) ≥ 0 f''(x)\geq 0 f(x)0可得:
( x − y ) [ f ′ ( x ) − f ′ ( y ) ] ≥ 0 (x-y)[f'(x)-f'(y)]\geq 0 (xy)[f(x)f(y)]0
( x − y ) f ′ ( x ) ≥ f ′ ( y ) ( x − y ) (x-y)f'(x)\geq f'(y)(x-y) (xy)f(x)f(y)(xy)
g ( x ) = ( x − y ) f ′ ( x ) − [ f ( x ) − f ( y ) ] g ′ ( x ) = ( x − y ) f ′ ′ ( x ) = 0 g(x)=(x-y)f'(x)-[f(x)-f(y)]\\ g'(x)=(x-y)f''(x)=0 g(x)=(xy)f(x)[f(x)f(y)]g(x)=(xy)f(x)=0
所以当 x = y x=y x=y时, g ( x ) g(x) g(x)取得极小值,即 g ( x ) m i n = 0 g(x)_{min}=0 g(x)min=0
也就是说, ( x − y ) f ′ ( x ) ≥ f ( x ) − f ( y ) ≥ f ′ ( y ) ( x − y ) (x-y)f'(x)\geq f(x)-f(y)\geq f'(y)(x-y) (xy)f(x)f(x)f(y)f(y)(xy)
得证一阶条件, f ( x ) ≥ f ( y ) + f ′ ( y ) ( x − y ) f(x)\geq f(y)+f'(y)(x-y) f(x)f(y)+f(y)(xy),从而必要性得证。

所以,凸函数的二阶条件就是 f ′ ′ ( x ) ≥ 0 f''(x)\geq 0 f(x)0(高维: ∇ 2 f ( x ) ⪰ 0 \nabla^{2}f(x)\succeq0 2f(x)0)

对率回归的目标函数是一个典型的最大似然估计问题,可以表示为: $$ \max_{\beta}\sum_{i=1}^{n}[y_i\log(\frac{1}{1+e^{-\beta^Tx_i}})+(1-y_i)\log(\frac{e^{-\beta^Tx_i}}{1+e^{-\beta^Tx_i}})] $$ 其中,$y_i$表示第$i$个样本的标签,$x_i$表示第$i$个样本的特征向量,$\beta$表示模型参数。 我们可以先证明这个目标函数是一个凸函数的充分条件是其二阶导数为正定矩阵。 对目标函数求一阶导数: $$ \frac{\partial L(\beta)}{\partial \beta_j}=\sum_{i=1}^{n}(y_i-\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}})x_{ij} $$ 对目标函数求二阶导数: $$ \begin{aligned} \frac{\partial^2 L(\beta)}{\partial \beta_j\partial \beta_k}&=-\sum_{i=1}^{n}\frac{\partial}{\partial\beta_k}(\frac{e^{\beta^Tx_i}}{(1+e^{\beta^Tx_i})^2})x_{ij}x_{ik}\\ &=-\sum_{i=1}^{n}(y_i-\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}})(1-\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}})x_{ij}x_{ik} \end{aligned} $$ 令$X$表示$n\times p$的样本特征矩阵,$Y$表示$n\times 1$的样本标签向量,则二阶导数可以表示为: $$ \frac{\partial^2 L(\beta)}{\partial \beta_j\partial \beta_k}=-X^T\Sigma X $$ 其中, $$ \Sigma=diag(\frac{e^{\beta^Tx_i}}{(1+e^{\beta^Tx_i})^2})-diag(\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}})(1-diag(\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}})) $$ 因为$\Sigma$是一个对角线元素为非负数的矩阵,所以只需要证明$X^T\Sigma X$是一个正定矩阵即可证明目标函数是一个凸函数。 对于任意非零向量$z\in R^p$,有: $$ z^TX^T\Sigma Xz=\sum_{i=1}^{n}(z^Tx_i)^2\frac{e^{\beta^Tx_i}}{(1+e^{\beta^Tx_i})^2}-\sum_{i=1}^{n}(z^Tx_i)^2\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}}(1-\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}}) $$ 令$p_i=\frac{e^{\beta^Tx_i}}{1+e^{\beta^Tx_i}}$,则上式可以进一步化简为: $$ \begin{aligned} z^TX^T\Sigma Xz&=\sum_{i=1}^{n}(z^Tx_i)^2p_i(1-p_i)\\ &\geq \frac{1}{4}\sum_{i=1}^{n}(z^Tx_i)^2\\ &=\frac{1}{4}z^TX^TXz \end{aligned} $$ 其中,第一个不等式使用了$p(1-p)\leq \frac{1}{4}$,第二个不等式使用了柯西-施瓦茨不等式。 因此,$X^T\Sigma X$是一个正定矩阵,从而证明了目标函数是一个凸函数
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值