凸优化之梯度下降法收敛性证明(仅考虑步长精确搜索情况)

预备知识

凸 函 数 性 质 ∀ x , y ∈ d o m f , f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) 二 阶 泰 勒 展 开 ( 假 设 x < y ) f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T ∇ 2 f ( z ) ( y − x ) , z ∈ ( x , y ) 凸 函 数 的 强 凸 性 ∀ x ∈ d o m f , m I ⪯ ∇ 2 f ( x ) ⪯ M I ( 注 意 这 里 的 符 号 ⪯ , I 是 单 位 矩 阵 , 除 对 角 线 元 素 为 1 之 外 , 其 他 全 为 0 ) 凸函数性质\\ \forall x,y \in domf, \quad f(y) = f(x)+ \nabla f(x)^T(y-x) \\ 二阶泰勒展开(假设x < y)\\ f(y) = f(x)+ \nabla f(x)^T(y-x) + \frac{1}{2}(y-x)^T \nabla^2 f(z)(y-x),z \in (x,y) \\ 凸函数的强凸性\\ \forall x \in domf, \quad mI \preceq \nabla^2 f(x) \preceq MI\\ (注意这里的符号\preceq,I是单位矩阵,除对角线元素为1之外,其他全为0) x,ydomf,f(y)=f(x)+f(x)T(yx)(x<y)f(y)=f(x)+f(x)T(yx)+21(yx)T2f(z)(yx),z(x,y)xdomf,mI2f(x)MI(,I,线1,0)

预备结论(控制变量 x x x,得到不等式右边最小值)

根 据 二 阶 泰 勒 展 开 和 m I ⪯ ∇ 2 f ( x ) , 我 们 有 如 下 结 论 : p ∗ ≥ f ( x ) − 1 2 m ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 证 明 : 由 于 m I ⪯ ∇ 2 f ( x ) , 则 二 阶 泰 勒 展 开 可 转 换 为 f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) + m 2 ∣ ∣ y − x ∣ ∣ 2 2 固 定 住 x , 右 边 是 关 于 y 的 二 次 函 数 ( 凸 函 数 ) , 求 最 小 值 , 当 y = y ~ = x − 1 m ∇ f ( x ) 时 , 有 : f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) + m 2 ∣ ∣ y − x ∣ ∣ 2 2 f ( y ) ≥ f ( x ) − 1 2 m ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 因 为 对 于 ∀ y ∈ d o m f , 上 式 都 成 立 , 当 左 边 的 f ( y ) = p ∗ 时 , 则 有 p ∗ ≥ f ( x ) − 1 2 m ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 根据二阶泰勒展开和mI \preceq \nabla^2 f(x),我们有如下结论:\\ p^* \geq f(x)- \frac{1}{2m}||\nabla f(x)||^2_2\\ 证明: 由于mI \preceq \nabla^2 f(x) ,则二阶泰勒展开可转换为 \\ f(y) \geq f(x)+ \nabla f(x)^T(y-x) + \frac{m}{2}||y-x||^2_2 \\ 固定住x,右边是关于y的二次函数(凸函数),求最小值,当y = \tilde{y} = x-\frac{1}{m} \nabla f(x)时,有:\\ f(y) \geq f(x)+ \nabla f(x)^T(y-x) + \frac{m}{2}||y-x||^2_2 \\ f(y) \geq f(x)-\frac{1}{2m}||\nabla f(x)||^2_2\\ 因为对于 \forall y\in domf, \quad 上式都成立,当左边的f(y) = p^* 时,则有\\ p^* \geq f(x)-\frac{1}{2m}||\nabla f(x)||^2_2 \\ mI2f(x),:pf(x)2m1f(x)22:mI2f(x),f(y)f(x)+f(x)T(yx)+2myx22x,y(),,y=y~=xm1f(x),:f(y)f(x)+f(x)T(yx)+2myx22f(y)f(x)2m1f(x)22ydomf,,f(y)=p,pf(x)2m1f(x)22

正式推导(以凸函数性质中的不等式为基础,刻画迭代过程)

因 为 ∇ 2 f ( x ) ≤ M I , 则 f ( y ) ≤ f ( x ) + ∇ f ( x ) T ( y − x ) + 1 2 ( y − x ) T M I ( y − x ) 化 简 得 f ( y ) ≤ f ( x ) + ∇ f ( x ) T ( y − x ) + M 2 ∣ ∣ y − x ∣ ∣ 2 2 定 义 关 于 t 的 新 函 数 f ~ ( t ) : f ~ ( t ) = f ( x − t ∇ f ( x ) ) , R → R , 这 个 新 函 数 代 表 迭 代 过 程 并 令 y = x − ∇ f ( x ) , 这 样 做 使 得 y 代 表 自 变 量 的 迭 代 过 程 , 得 f ~ ( t ) ≤ f ( x ) − t ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 + M t 2 2 ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 假 定 采 用 精 确 直 线 搜 索 , 在 不 等 式 两 边 同 时 以 t 为 自 变 量 求 最 小 , 左 边 为 f ~ ( t e x a c t ) , 右 边 是 一 个 简 单 的 二 次 函 数 , 取 最 小 值 时 t = 1 M , 则 可 得 f ( x + ) = f ~ ( t ) ≤ f ( x ) − 1 2 M ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 式 子 两 边 同 时 减 去 p ∗ , 得 f ( x + ) − p ∗ ≤ f ( x ) − p ∗ − 1 2 M ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 因为 \nabla^2 f(x) \leq MI, 则\\ f(y) \leq f(x)+ \nabla f(x)^T(y-x) + \frac{1}{2}(y-x)^T MI (y-x) \\ 化简得\\ f(y) \leq f(x)+ \nabla f(x)^T(y-x) + \frac{M}{2} || y-x||^2_2 \\ 定义关于t的新函数\tilde{f}(t):\tilde{f}(t) = f(x-t \nabla f(x)), R \rightarrow R, 这个新函数代表迭代过程\\ 并令y = x-\nabla f(x), 这样做使得y代表自变量的迭代过程,得\\ \tilde{f}(t) \leq f(x)-t|| \nabla f(x)||^2_2 + \frac{Mt^2}{2} || \nabla f(x)||^2_2\\ 假定采用精确直线搜索,在不等式两边同时以t为自变量求最小,左边为\tilde{f}(t_{exact}),\\ 右边是一个简单的二次函数,取最小值时t = \frac{1}{M},则可得\\ f(x^+) = \tilde{f}(t) \leq f(x)-\frac{1}{2M} || \nabla f(x)||^2_2 \\ 式子两边同时减去p*, 得\\ f(x^+) -p^* \leq f(x)- p^* -\frac{1}{2M} || \nabla f(x)||^2_2\\ 2f(x)MI,f(y)f(x)+f(x)T(yx)+21(yx)TMI(yx)f(y)f(x)+f(x)T(yx)+2Myx22tf~(t):f~(t)=f(xtf(x)),RR,y=xf(x),使y,f~(t)f(x)tf(x)22+2Mt2f(x)22线,t,f~(texact),,t=M1,f(x+)=f~(t)f(x)2M1f(x)22p,f(x+)pf(x)p2M1f(x)22

合并以上推导得到最终结果

由 于 预 备 结 论 中 有 p ∗ ≥ f ( x ) − 1 2 m ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 , 稍 加 变 形 则 有 2 m ( p ∗ − f ( x ) ) ≥ − ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 则 f ( x + ) − p ∗ ≤ f ( x ) − p ∗ − 1 2 M ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 代 入 上 式 可 得 f ( x + ) − p ∗ ≤ f ( x ) − p ∗ − 1 2 M ∣ ∣ ∇ f ( x ) ∣ ∣ 2 2 ≤ f ( x ) − p ∗ + m M ( p ∗ − f ( x ) ) = ( 1 − m M ) ( f ( x ) − p ∗ ) 省 去 中 间 过 程 , 则 有 f ( x + ) − p ∗ ≤ ( 1 − m M ) ( f ( x ) − p ∗ ) 重 复 运 用 以 上 不 等 式 , 则 有 f ( x ( k ) − p ∗ ) ≤ c k ( f ( x 0 − p ∗ ) , 其 中 c = ( 1 − m M ) < 1 则 有 lim ⁡ k → ∞ f ( x ( k ) ) = p ∗ 至 多 经 过 log ⁡ ( ( f ( x 0 − p ∗ ) / ϵ ) log ⁡ ( 1 / c ) 次 迭 代 ( 换 底 公 式 log ⁡ a b = log ⁡ c b log ⁡ c a ) , 一 定 可 以 得 到 f ( x ( k ) − p ∗ ) ≤ ϵ 由于预备结论中有 p^* \geq f(x)-\frac{1}{2m}||\nabla f(x)||^2_2,稍加变形则有\\ 2m (p^* - f(x) )\geq -||\nabla f(x)||^2_2\\ 则f(x^+) -p^* \leq f(x)- p^* -\frac{1}{2M} || \nabla f(x)||^2_2 代入上式可得\\f(x^+) -p^* \leq f(x)- p^* -\frac{1}{2M} || \nabla f(x)||^2_2\\ \leq f(x)- p^* +\frac{m}{M} (p^* - f(x) ) \\ = (1-\frac{m}{M})( f(x)- p^*)\\ 省去中间过程,则有\\ f(x^+)-p^* \leq (1-\frac{m}{M})( f(x)- p^*)\\ 重复运用以上不等式,则有\\ f(x^{(k)}-p^*) \leq c^k(f(x^{0}-p^*),\quad 其中c = (1-\frac{m}{M}) < 1\\ 则有\\ \lim_{k \rightarrow \infty}f(x^{(k)}) = p^*\\ 至多经过\\ \frac{\log((f(x^{0}-p^*)/\epsilon)}{\log(1/c)}次迭代(换底公式\log_a^b = \frac{\log_c^b}{\log_c^a}),一定可以得到f(x^{(k)}-p^*) \leq \epsilon pf(x)2m1f(x)22,2m(pf(x))f(x)22f(x+)pf(x)p2M1f(x)22f(x+)pf(x)p2M1f(x)22f(x)p+Mm(pf(x))=(1Mm)(f(x)p),f(x+)p(1Mm)(f(x)p),f(x(k)p)ck(f(x0p),c=(1Mm)<1klimf(x(k))=plog(1/c)log((f(x0p)/ϵ)(logab=logcalogcb),f(x(k)p)ϵ

参考资料

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wowotou1998

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值