凸优化之梯度下降法收敛性证明(仅考虑步长精确搜索情况)

最新推荐文章于 2023-08-21 17:20:01 发布

wowotou1998

最新推荐文章于 2023-08-21 17:20:01 发布

阅读量673

点赞数

分类专栏：凸优化文章标签：数学机器学习人工智能

本文链接：https://blog.csdn.net/qq_26071603/article/details/115831505

版权

凸优化专栏收录该内容

7 篇文章 1 订阅

订阅专栏

预备知识

$凸函数性质\\ \forall x,y \in domf, \quad f(y) = f(x)+ \nabla f(x)^T(y-x) \\ 二阶泰勒展开(假设x < y)\\ f(y) = f(x)+ \nabla f(x)^T(y-x) + \frac{1}{2}(y-x)^T \nabla^2 f(z)(y-x),z \in (x,y) \\ 凸函数的强凸性\\ \forall x \in domf, \quad mI \preceq \nabla^2 f(x) \preceq MI\\ (注意这里的符号\preceq,I是单位矩阵,除对角线元素为1之外,其他全为0)$

预备结论(控制变量 $x$ ,得到不等式右边最小值)

$\preceq \nabla^2 f(x),我们有如下结论:\\ p^* \geq f(x)- \frac{1}{2m}||\nabla f(x)||^2_2\\ 证明: 由于mI \preceq \nabla^2 f(x) ,则二阶泰勒展开可转换为 \\ f(y) \geq f(x)+ \nabla f(x)^T(y-x) + \frac{m}{2}||y-x||^2_2 \\ 固定住x,右边是关于y的二次函数(凸函数),求最小值,当y = \tilde{y} = x-\frac{1}{m} \nabla f(x)时,有:\\ f(y) \geq f(x)+ \nabla f(x)^T(y-x) + \frac{m}{2}||y-x||^2_2 \\ f(y) \geq f(x)-\frac{1}{2m}||\nabla f(x)||^2_2\\ 因为对于 \forall y\in domf, \quad 上式都成立,当左边的f(y) = p^* 时,则有\\ p^* \geq f(x)-\frac{1}{2m}||\nabla f(x)||^2_2 \\$

正式推导(以凸函数性质中的不等式为基础,刻画迭代过程)

$\nabla^2 f(x) \leq MI, 则\\ f(y) \leq f(x)+ \nabla f(x)^T(y-x) + \frac{1}{2}(y-x)^T MI (y-x) \\ 化简得\\ f(y) \leq f(x)+ \nabla f(x)^T(y-x) + \frac{M}{2} || y-x||^2_2 \\ 定义关于t的新函数\tilde{f}(t):\tilde{f}(t) = f(x-t \nabla f(x)), R \rightarrow R, 这个新函数代表迭代过程\\ 并令y = x-\nabla f(x), 这样做使得y代表自变量的迭代过程,得\\ \tilde{f}(t) \leq f(x)-t|| \nabla f(x)||^2_2 + \frac{Mt^2}{2} || \nabla f(x)||^2_2\\ 假定采用精确直线搜索,在不等式两边同时以t为自变量求最小,左边为\tilde{f}(t_{exact}),\\ 右边是一个简单的二次函数,取最小值时t = \frac{1}{M},则可得\\ f(x^+) = \tilde{f}(t) \leq f(x)-\frac{1}{2M} || \nabla f(x)||^2_2 \\ 式子两边同时减去p*, 得\\ f(x^+) -p^* \leq f(x)- p^* -\frac{1}{2M} || \nabla f(x)||^2_2\\$

合并以上推导得到最终结果

$p^* \geq f(x)-\frac{1}{2m}||\nabla f(x)||^2_2,稍加变形则有\\ 2m (p^* - f(x) )\geq -||\nabla f(x)||^2_2\\ 则f(x^+) -p^* \leq f(x)- p^* -\frac{1}{2M} || \nabla f(x)||^2_2 代入上式可得\\f(x^+) -p^* \leq f(x)- p^* -\frac{1}{2M} || \nabla f(x)||^2_2\\ \leq f(x)- p^* +\frac{m}{M} (p^* - f(x) ) \\ = (1-\frac{m}{M})( f(x)- p^*)\\ 省去中间过程,则有\\ f(x^+)-p^* \leq (1-\frac{m}{M})( f(x)- p^*)\\ 重复运用以上不等式,则有\\ f(x^{(k)}-p^*) \leq c^k(f(x^{0}-p^*),\quad 其中c = (1-\frac{m}{M}) < 1\\ 则有\\ \lim_{k \rightarrow \infty}f(x^{(k)}) = p^*\\ 至多经过\\ \frac{\log((f(x^{0}-p^*)/\epsilon)}{\log(1/c)}次迭代(换底公式\log_a^b = \frac{\log_c^b}{\log_c^a}),一定可以得到f(x^{(k)}-p^*) \leq \epsilon$