凸优化(读书笔记):无约束优化

无条件最优化问题的求解方法

1.无约束优化问题

min f(x)    (1)

其中f: R^{n}\rightarrow R 是二次可微凸函数(意味着dom f是开集)。p^{*}表示最优值inf_{x} f(x)=f(x^{*})

最优点x^{*}应该满足下述充要条件

\bigtriangledown f(x^{*})=0  (2)

因此求解无约束最优化问题(1)等价于求解n个变量的n个方程(2),但是一般情况下必须采用迭代算法求解(2),即计算点列x^{(0)},x^{(1)},\cdots ,x^{(n)}\in dom f 使得k\rightarrow \inftyf(x^(k))\rightarrow p^{*},当f(x^{*})-p^{*}\leq \varepsilon时算法终止。

2.强凸性

假设目标函数在S上是强凸的,这是指存在m>0,使得

\triangledown ^{2}f(x)\geq mI  (3)

对于x,y\in S,我们有

f(y)=f(x)+\triangledown f(x)^{T}(y-x)+\frac{1}{2}(y-x)^{T}\triangledown ^{2}f(x)(y-x)

 f(y)\geq f(x)+\bigtriangledown f(x)^{T}(y-x)+\frac{m}{2}\left \| y-x \right \|_{2}^{2}  

对两边就极值,\frac{m}{2}\left \| y-x \right \|_{2}^{2}是凸函数,其最优解为\widetilde{y}=x-\frac{1}{m}\bigtriangledown f(x),则有

f(y)\geq f(x)+\bigtriangledown f(x)^{T}(y-x)+\frac{m}{2}\left \| y-x \right \|_{2}^{2}

         \geq f(x)+\bigtriangledown f(x)^{T}(\widetilde{y}-x)+\frac{m}{2}\left \| \widetilde{y}-x \right \|_{2}^{2}

        =f(x)-\frac{1}{2m}\left \| \bigtriangledown f(x) \right \|_{2}^{2}

由于该不等式对所有y \in S成立,所以有

f(x)-p^{*}\leq \frac{1}{2m}\left \| \bigtriangledown f(x) \right \|_{2}^{2}

因此可以看出任何梯度足够小都可以近似最优解。即令\varepsilon足够小,\left \| \bigtriangledown f(x) \right \| _{2}\in (-\varepsilon ,+\varepsilon )都是近似最优解。

对于x和任意最优解x^{*}之间的距离\left \| x-x^{*} \right \|_{2},也可以建立正比于\left \| \bigtriangledown f(x) \right \|_{2}的下界的上界,

\left \| x-x^{*} \right \|_{2}\leq \frac{2}{m}\left \| \bigtriangledown f(x) \right \|_{2},证明如下

p^{*}=f(x^{*})\geq f(x)+\bigtriangledown f(x)^{T}(x^{*}-x)+\frac{m}{2}\left \| x^{*}-x \right \|_{2}^{2}

利用柯西施瓦兹不等式有,

p^{*}\geq f(x)-\left \| \left \| \bigtriangledown f(x) \right \|_{2} \left \| x^{*}-x \right \|\right \|+\frac{m}{2}\left \| x^{*} -x\right \|_{2}^{2},由于p^{*}\leq f(x)

所以有-\left \| \left \| \bigtriangledown f(x) \right \|_{2} \left \| x^{*}-x \right \|\right \|+\frac{m}{2}\left \| x^{*} -x\right \|_{2}^{2}\leq 0

得证。

2.下降的方法

此处描述算法将产生一个优化点列x^{(k)},k=1,\cdots其中

x^{(k+1)}=x^{(k)}+t^{(k)}\bigtriangleup x^{(k)}

并且有t^{(k)}>0t^{(k)}被成为第k次迭代的步长,\bigtriangleup x^{(k)}为搜索方向。所有的下降方法,都要满足只要x^{(k)}不是最优点就成立:

f(x^{(k+1)})<f(x^{(k)})

由凸性可知,\bigtriangledown f(x^{(k)})^{T}(y-x^{k})<0

因此一个下降方法中的搜索方向必须满足\bigtriangledown f(x^{(k)})^{T}\bigtriangleup x^{k}<0,即搜索方向必须与负梯度方向是锐角。

下降方向由交替进进行的两个步骤构成:确定下降方向\bigtriangleup x,选择步长t。其一般框架如下:


算法1 通用下降算法

给定 初始点x \in dom f

重复进行

1.确定下降方向\bigtriangleup x

2.直线搜索。选择步长t>0.

3.修改。x:x+t\bigtriangleup x


精确直线搜索

t是通过沿着射线\left \{ \right.x+t\bigtriangleup x|t\geq 0\left. \right \}优化f而确定:

t=argmin_{s\geq 0} f(x+s\bigtriangleup x)

回溯直线搜索

通过沿着射线\left \{ \right.x+t\bigtriangleup x|t\geq 0\left. \right \}近似优化f确定步长,甚至只要f有足够的减少即可。


算法2 回溯直线搜索

给定fx \in dom f处的下降方向\bigtriangleup x,参数\alpha \in (0,0.5),\beta \in (0,1)

t:=1

如果f(x+t\bigtriangleup x)>f(x)+\alpha t\bigtriangledown f(x)^{T}\bigtriangleup x,令t:=\beta t


3.梯度下降的方法

由于一个下降方法中的搜索方向必须满足\bigtriangledown f(x^{(k)})^{T}\bigtriangleup x^{k}<0,即搜索方向必须与负梯度方向是锐角。

因此用负梯度作搜索方向\bigtriangleup x=-\bigtriangledown f(x),是一种自然的选择。

ps:为什么梯度下降是最快下降方向呢?

f(x^{k+1})-f(x^{k})=\bigtriangledown f(x^{(k)})^{T}(x^{k+1}-x^{k})<0

\bigtriangledown f(x^{(k)})^{T}(y-x^{k})=|\bigtriangledown f(x^{(k)})||y-x^{k}|cos\alpha

\alpha为180度时,cos\alpha =-1取得最小值。

3.1 采用精准直线搜索收敛性分析

由于有f(y)\leq f(x)+\bigtriangledown f(x)^{T}(y-x)+\frac{M}{2}\left \| y-x \right \|_{2}^{2},

y=x-t\bigtriangledown f(x) 代入可以得到\tilde{f(t)}\leq f(x)-t\left \| \bigtriangledown f(x) \right \|_{2}^{2}+\frac{Mt^{2}}{2}\left \| \bigtriangledown f(x) \right \|_{2}^{2}

对上面不等式两边求极值可以,可以得到:

f(x^{+})=\tilde{f}(t_{exact})\leq f(x)-\frac{1}{2M}\left \| \bigtriangledown f(x) \right \|_{2}^{2}

两边减去p^{*},有

f(x^{+})-p^{*}\leq f(x)-p^{*}-\frac{1}{2M}\left \| \bigtriangledown f(x) \right \|_{2}^{2}

又因为有\left \| \bigtriangledown f(x) \right \|\geq 2m(f(x)-p^{*}),则可以得到

f(x^{+})-p^{*}\leq (1-m/M)(f(x)-p^{*})

重复应用以上不等式,可以看出

f(x^{k})-p^{*}\leq c^{k}(f(x^{(0)})-p^{*}),其中c=1-m/M<1,所以k\rightarrow \inftyf(x^{(k)})-p^{*}趋于0。 特别是至多经过

\frac{log(f(x^{(0)}-p^{*}/\varepsilon ))}{log(1/c)}

次迭代一定可以达到。

4.Newton方法

对于x\in dom f,我们称向量

\bigtriangleup x_{nt}=-\bigtriangledown ^{2}f(x)^{-1}\bigtriangledown f(x)

为Newton步径,由于\bigtriangledown ^{2}f(x) 正定,除非\bigtriangledown f(x)=0,否则

\bigtriangledown f(x)^{T}\Delta x_{nt}=-\bigtriangledown f(x)^{T}\bigtriangledown ^{2}f(x)^{-1}\bigtriangledown f(x)<0

二阶近似的最优解

函数f 在x处的二阶Taylor近似\hat{f}

\hat{f}(x+v)=f(x)+\bigtriangledown f(x)^{T}v+\frac{1}{2}v^{T}\bigtriangledown ^{2}f(x)v,这里是关于v的二次凸函数,

通过一阶导求极值可以得到v=\bigtriangleup x_{nt}=-\bigtriangledown ^{2}f(x)^{-1}\bigtriangledown f(x)时达到最小值。

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值