method_Nesterov's Accelerated Gradient Descent

最新推荐文章于 2024-09-11 16:51:25 发布

A4学士

最新推荐文章于 2024-09-11 16:51:25 发布

阅读量4.6k

点赞数 1

分类专栏： Opt ietrative 文章标签： opt iterative

Opt 同时被 2 个专栏收录

17 篇文章 2 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

一般的梯度下降算法的收敛速率为
o(1/t).

1.简介:

加速梯度算法(AGD)是梯度算法(GD)的一个改进的版本。Nesterov 在1983年首次提出。人们已经证明AGD算法是所有基于梯度算法（或者说一阶）算法中最好的方法。然而原始的AGD算法仅能处理光滑的凸优化问题。最新的进展是，将AGD扩展到了更广泛类型的凸优化问题：

min x f (x) + g (x)

其中

f(x)是闭凸函数。同样可以获得相似的收敛速率。

2.算法

AGD算法可以概括为算法1：，其中有两种方式确定步长γ
这里写图片描述
首先，类似于梯度下降算法，为了确保收敛率，我们可以设置γ。其次，我们可以使用直线搜索，自适应地确定步长，满足:

f (x k + 1) \leq m y k, γ (x k + 1)

其中：

x k + 1 = prox γ g (\cdot) (y k - γ ▽ f (y k))

proxγg(⋅)(⋅)表示近端操作（近似操作）。即：

prox γ g (\cdot) (v) = argmin z \in R n 1 2 γ | | v - z | | 2 + g (z)

通常给定γ.
注意：序列{tk}满足下面的三个属性：

{tk} 是正的，并且递增
tk+1≥tk+12
fract0−1t1=0

3.收敛率：

AGD 是最优的基于梯度的方法。因为它提供了最优的收敛率。假定满足下面的Lipschitz 条件。
假设1. 假定平滑的凸函数f(x)拥有一个Lipschitz梯度。也就是说存在常数L，满足：

f (y) \leq f (x) + < ▽ f (x), y - x > + L 2 | | y - x | | 2 x, y

在这个假设下，如果步长选择的足够小，或者通过直线搜索确定，那么我们有下面的收敛率：

F (x k) - F * \leq O (1 k 2)

另外一种解释方法:

首先定义下面的序列：

λ 0 = 0, λ s = 1 + 1 + 4 λ 2 s - 1 --------\sqrt 2, and, γ s = 1 - λ s λ s + 1

注意：

γs≤0是任意的。

y s + 1 = x s - 1 β ▽ f (x s)

x s + 1 = (1 - γ s) y s + 1 + γ s y s

换句话说：
Nesterov加速梯度下降法执行简单的梯度下降步骤,从xs.

参考文献：

https://blogs.princeton.edu/imabandit/2013/04/01/acceleratedgradientdescent/
[ORF523: Nesterov’s Accelerated Gradient Descent]
CSC 576: Accelerated Gradient Descent Algorithm
Gradient methods for minimizing composite objective function [Nesterov2007]

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄7年

1
原创

40
点赞

165
收藏

19
粉丝

关注

私信

热门文章

分类专栏

others
Opt 17篇
Manifold 11篇
Latex 1篇
ml 22篇
big-data 2篇
algo 1篇
ietrative 3篇
dl 1篇
py 3篇
matlab 1篇
svd 1篇
k-nn

最新评论

amijor nonmontone linesearch
极乐寺住持: 没有公式啊
流形学习方法概述
◆◇丶阳光灿烂刺眼╰: http://www.math.umn.edu/~wittman/mani/ 这个进不去了，怎么办啊
lasso 详介
HiSecret: 写的不错，顶个贴，点个赞，嘿嘿！
method_FISTA(Fast iterative shrinkage-thresholding algorithm)
靈鶫: 利普西茨条件是不是写错了啊，不应该是导数有最小上界吗？
method_软阈值算子(Soft Thresholding)
dyfiii: 这个公式位于您的文章“ 2、软阈值(Soft Thresholding)函数的作用 ”这一节最后一个公式。根据前面公式的推导，B确实是一个向量，这怎么和标量进行比较。希望得到博主的回复，谢谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。