【Machine Learning】Optimization

YiPeng_Deng

已于 2024-01-10 00:50:41 修改

阅读量1k

点赞数 18

分类专栏：学习小计文章标签：机器学习人工智能总结梯度下降优化理论

于 2024-01-10 00:43:00 首次发布

本文链接：https://blog.csdn.net/qq_43649416/article/details/135492796

版权

31 篇文章 0 订阅

订阅专栏

本笔记基于清华大学《机器学习》的课程讲义梯度下降相关部分，基本为笔者在考试前一两天所作的Cheat Sheet。内容较多，并不详细，主要作为复习和记忆的资料。

Upper Bound for $\nabla^2f(x)$ : $\left\|\nabla^2f(w)\right \|\le L$

$f(w')\le f(w)+\langle \nabla f(w), w'-w\rangle+\frac{L}{2}\left\|w'-w\right \|^2$

equivalent to $\left\|\nabla f(w)-\nabla f(w')\right \|\le L\left\|w-w'\right \|$
- Proof:
  - $\Rightarrow$ : $\left\|\nabla f(w)-\nabla f(w')\right \|\le \left\|\nabla^2 f(x)\right\|\left\|w-w'\right \|\le L\left\|w-w'\right \|$
  - $\Leftarrow$
- 2-side: $\left|f(w')-f(w)-\langle \nabla f(w), w'-w\rangle\right|\le \frac{L}{2}\left\|w'-w\right \|^2$
- contains both upper/lower bound
When $w'=w-\eta\nabla f(w)$ , $\eta=\frac{1}{L}$ to make sure

$f(w')-f(w)=-\frac{1}{2\eta}\left\|\nabla f(x)\right \|^2<0$

Lower Bound for $\nabla^2f(x)$

$f(w')\ge f(w)+\nabla f(w)^T(w'-w)$
- $\lambda\min\nabla^2 f(w)\ge 0$
Strong convex function: $f(w')\ge f(w)+\nabla f(w)^T(w'-w)+\frac{\mu}{2}\left\|w-w'\right\|^2$
- $\lambda\min \nabla^2f(w)\ge \mu \ge 0$

$f(w')-f(w)\le -\eta\left(1-\frac{L\eta}{2}\right)\left\|\nabla f(w)\right \|^2$

$f(w_t)-f(w^*)\le \frac{\left\|w_0-w^*\right \|^2}{2t\eta}$

$f(\overline{w_t})-f(w^*)\le \frac{\left\|w_0-w^*\right \|^2}{2t\eta}+\eta \sigma^2$

Proof: To read.

After $k$ iterations, $f(\bar{x})-f(u)\le \frac{1}{k}\sum_{t=0}^{k-1}\langle \nabla f(x_t),x_t-u\rangle$ (also calls regret)becomes smaller.
$f$ is $\rho$ -Lipschitz, that is $|\nabla f(x)|\le \rho$ . After $T=O(\frac{\rho^2}{\epsilon^2})$ , $f(\bar{x})-f(x^*)\le \epsilon$ . $1/\sqrt{t}$ convergence rate.
Linear Coupling: $1/t^2$ convergence rate. $t\ge \Omega\left(\frac{1}{\epsilon}\right)^{1/2}$

关注