最优化算法(一)

最新推荐文章于 2021-04-23 11:27:12 发布

sksssssss

最新推荐文章于 2021-04-23 11:27:12 发布

阅读量4.7k

点赞数 1

分类专栏：算法文章标签：算法优化

本文链接：https://blog.csdn.net/oBanTianYun/article/details/73135668

版权

算法专栏收录该内容

6 篇文章 1 订阅

订阅专栏

前言

最优化算法在机器学习中扮演着重要的角色，很多的机器学习算法最终都会归结为如下的最优化问题

min f J (x) : = λ Ω (f) + R e m p (f)

$\min_f J(x):=\lambda\Omega(f)+R_{emp}(f)$ 以上就是结构风险最小化，其中

Remp(f) $R_{emp}(f)$ 是期望风险。

R e m p (f) : = 1 m \sum i = 1 m l (f (x i), y i)

$R_{emp}(f):=\frac{1}{m}\sum_{i=1}^ml(f(x_i),y_i)$ 其中

xi $x_i$ 是训练样本，

yi $y_i$ 是相关的label，

l $l$ 是损失函数。
以上优化问题需要通过相应的最优化算法去求，下面会介绍如下的最优化算法，梯度下降算法，随机梯度下降，镜像下降算法，牛顿方法，拟牛顿方法，并分析算法的收敛性。

基础知识

凸集
如果 $x\in C，y\in C，\lambda\in C，且(1-\lambda)x+\lambda x \in C$ ，那么 $C$ 是凸集。

凸函数
函数 $f$ 如果在凸集 $X$ 上对任意的 $x、x^\prime\in X$ 和任意的 $0<\lambda <1$ 存在 $f (λ x + (1 - λ) x') \leq λ f (x) + (1 - λ) f (x'))$ $f(\lambda x+(1-\lambda)x^\prime) \le\lambda f(x)+(1-\lambda)f(x^\prime))$

强凸函数
如果一个凸函数满足有且只有一个常数 $\sigma>0$ ，使得函数 $f(x)-\frac{\sigma}{2}\begin{Vmatrix}x\end{Vmatrix}^2$ 是凸函数，则 $f(x)$ 是一个强凸函数，且 $\sigma$ 叫强凸常数。

Lipschitz Continuous Gradient
假设 $f(x)$ 凸且可导，如果存在一个常数，使得任意的 $x$ 满足 $∥ ∥ \nabla f (x) - \nabla f (x') ∥ ∥ \leq L ∥ ∥ x - x' ∥ ∥$ $\begin{Vmatrix}\nabla f(x) -\nabla f(x^\prime)\end{Vmatrix} \le L\begin{Vmatrix}x-x^\prime\end{Vmatrix}$ 则 $f(x)$ 是Lipschitz Continuous Gradient

Bregman Divergence(Bregman散度)
如果 $f(x)$ 凸且可导，则Bregman散度定义如下 $Δ f (x, x') = f (x) - f (x') - ⟨ x - x', \nabla f (x') ⟩$ $\Delta_f(x,x^\prime)=f(x)-f(x^\prime)- \left \langle x-x^\prime ,\nabla f(x^\prime) \right \rangle$

梯度下降算法

梯度下降算法是机器学习里面最常使用的优化算法，主要是应用在高维平滑凸函数，假如目标函数 $J:\mathbb R^n\to \mathbb R$ ，梯度下降的基本思想就是在 $t$ 次迭代给定一个 $w_t$ ，计算梯度 $\nabla J(w_t)$ ，且

w t + 1 = w t - η t \nabla J (w t)

$w_{t+1}=w_t-\eta_t\nabla J(w_t)$ 其中

ηt $\eta_t$ 是一个更新步长，有得到梯度方向时通常可以使用下面两种线性搜索的方法去得到步长。

确定线性搜索

因为 $J(w_t-\eta_t\nabla J(w_t))$ 是一个关于 $\eta_t$ 的一维凸函数，所以我们可以用一维搜索的方式如下：

η t = a r g m i n η J (w t - η \nabla J (w t))

$\eta_t=argmin_\eta J(w_t-\eta \nabla J(w_t))$

非确定线性搜索

确定线性搜索的方式比较低效，我们可以通过计算每一个步长下是不是能够使得目标函数减小，一种比较常用的充分减少的条件是wolfe conditions

J (w t + 1) \leq J (w t) + c 1 η t ⟨ \nabla J (w t), w t + 1 - w t ⟩

$J(w_{t+1}) \leq J(w_t) + c_1\eta_t\left \langle \nabla J(w_t),w_{t+1}-w_t \right \rangle$

⟨ \nabla J (w t), w t + 1 - w t ⟩ \geq c 2 ⟨ \nabla J (w t), w t + 1 - w t ⟩

$\left \langle\nabla J(w_t),w_{t+1}-w_t\right\rangle \ge c_2\left \langle \nabla J(w_t),w_{t+1} - w_t\right\rangle$ 且

0<c1<c2<1 $0<c_1<c_2<1$

固定步长

假设 $J$ 是一个梯度Lipschitz Continuous连续，且Lipschitz Continuous常数为L，假设梯度下降的固定长度为 $\eta_t=\frac{1}{L}$

J (w t + 1) \leq J (w t) + ⟨ \nabla J (w t), w t + 1 - w t ⟩ + 1 L ∥ ∥ w t + 1 - w t ∥ ∥

$J(w_{t+1}) \leq J(w_t)+\left \langle\nabla J(w_t),w_{t+1}-w_t\right \rangle + \frac{1}{L}\begin{Vmatrix}w_{t+1}-w_t\end{Vmatrix}$

= J (w t) - η t ∥ ∥ \nabla J (w t) ∥ ∥ 2 + L η 2 t 2 ∥ ∥ \nabla J (w t) ∥ ∥ 2

$=J(w_t)-\eta_t\begin{Vmatrix}\nabla J(w_t)\end{Vmatrix}^2+\frac{L\eta_t^2}{2}\begin{Vmatrix}\nabla J(w_t)\end{Vmatrix}^2$ 当

ηt=1L $\eta_t=\frac{1}{L}$ 时，

∥∥∇J(wt)∥∥≤ϵ $\begin{Vmatrix}\nabla J(w_t)\end{Vmatrix} \le \epsilon$ 至多迭代

O(1ϵ2) $O(\frac{1}{\epsilon^2})$
证明:当

ηt=1L $\eta_t=\frac{1}{L}$ 时，代入上式可得

1 2 L ∥ ∥ \nabla J (w t) ∥ ∥ 2 \leq J (w t) - J (w t + 1)

$\frac{1}{2L}\begin{Vmatrix}\nabla J(w_t)\end{Vmatrix}^2 \le J(w_t)-J(w_{t+1})$ 累加上式

1 2 L \sum t = 0 T ∥ ∥ \nabla J (w t) ∥ ∥ 2 \leq J (w 0) - J (w T) \leq J (w 0) - J (w *)

$\frac{1}{2L}\sum_{t=0}^T\begin{Vmatrix}\nabla J(w_t)\end{Vmatrix}^2 \le J(w_0)-J(w_T)\le J(w_0)-J(w^*)$ 当

t→∞ $t\to\infty$ 时，

∥∥∇J(wt)∥∥→0 $\begin{Vmatrix}\nabla J(w_t)\end{Vmatrix}\to 0$ ，上式可以变型成下面式子

∥ ∥ \nabla J (w T) ∥ ∥ \leq 2 L ( J ( w 0 ) - J ( w * ) ) T + 1 ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt

$\begin{Vmatrix}\nabla J(w_T)\end{Vmatrix}\le \sqrt{\frac{2L(J(w_0)-J(w^*))}{T+1}}$ 即

2 L ( J ( w 0 ) - J ( w * ) ) T + 1 ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt = ϵ

$\sqrt{\frac{2L(J(w_0)-J(w^*))}{T+1}}=\epsilon$
当

J $J$ 是强凸函数，强凸系数是

σ $\sigma$ 令

c=1−σL $c=1-\frac{\sigma}{L}$ ，则

J(wt)−J(w∗)≤ϵ $J(w_t)-J(w^*)\le \epsilon$ 至多

l o g ( ( J ( w 0 ) - J ( w * ) ) / ϵ ) l o g ( 1 / c )

$\frac{log((J(w_0)-J(w^*))/\epsilon)}{log(1/c)}$ 次迭代。
证明：由于

J $J$ 是强凸函数，所以

J (w t) \leq J (w *) + 1 2 σ ∥ ∥ \nabla J (w t) ∥ ∥ 2

$J(w_t)\le J(w^*)+\frac{1}{2\sigma}\begin{Vmatrix}\nabla J(w_t)\end{Vmatrix}^2$ 即

∥ ∥ \nabla J (w t) ∥ ∥ 2 \geq 2 σ (J (w t + 1) - J (w *))

$\begin{Vmatrix}\nabla J(w_t)\end{Vmatrix}^2 \ge 2\sigma (J(w_{t+1})-J(w^*))$ 又因为

1 2 L ∥ ∥ \nabla J (w t) ∥ ∥ 2 \leq J (w t) - J (w t + 1)

$\frac{1}{2L}\begin{Vmatrix}\nabla J(w_t)\end{Vmatrix}^2 \le J(w_t)-J(w_{t+1})$ 综合上两式得

c (J (w t) - J (w *)) \geq J (w t + 1 - J (w *))

$c(J(w_t)-J(w^*))\ge J(w_{t+1}-J(w^*))$ 递归求解得

c T (J (w 0) - J (w *)) \geq J (w T) - J (w *)

$c^T(J(w_0)-J(w^*))\ge J(w_T)-J(w^*)$ 解得如下

ϵ = c T (J (w 0) - J (w *))

$\epsilon=c^T(J(w_0)-J(w^*))$ 这里当目标函数为强凸时，梯度下降算法收敛速度是

O(log(1/ϵ)) $O(log(1/\epsilon))$ ，但是还依赖于

log(1/c) $log(1/c)$ ，而

log(1/c)≈σL $log(1/c)\approx\frac{\sigma}{L}$ ，当

σ≈L $\sigma \approx L$ 梯度下降的收敛速度最快，

σ≪L $\sigma \ll L$ 梯度下降收敛速度最慢。

sksssssss

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
最优化算法(一)

前言最优化算法在机器学习中扮演着重要的角色，很多的机器学习算法最终都会归结为如下的最优化问题minfJ(x):=λΩ(f)+Remp(f)\min_f J(x):=\lambda\Omega(f)+R_{emp}(f)以上就是结构风险最小化，其中Remp(f)R_{emp}(f)是期望风险。Remp(f):=1m∑i=1ml(f(xi),yi)R_{emp}(f):=\frac{1}{m}\s
复制链接

扫一扫