Stochastic average gradient(SAG) 算法

最新推荐文章于 2022-07-03 12:35:39 发布

Lem3101

最新推荐文章于 2022-07-03 12:35:39 发布

阅读量4.2k

点赞数 3

分类专栏：优化算法

本文链接：https://blog.csdn.net/qq_20186593/article/details/80286736

版权

SAG（Stochastic Average Gradient）是为了解决SGD收敛速度慢的问题而提出的，它结合了前一次迭代和当前样本的梯度信息，通过存储所有样本的梯度实现线性收敛，与全梯度下降的收敛速度相当，但需要更多内存。SAG方法包括优化问题的描述及其在实际应用中的改进，如SAGA。

摘要由CSDN通过智能技术生成

Stochastic average gradient(SAG)

介绍：

在SGD中，由于收敛的速度太慢，所以后面就有人提出SAG基于梯度下降的算法。

SAG中的S是随机（Stochastic），A是平均（average），G是梯度（gradient）的意思。可以看到SAG是一种加速版本的SGD。

SAG其实每次计算时，利用了两个梯度的值，一个是前一次迭代的梯度值，另一个是新的梯度值。当然这两个梯度值都只是随机选取一个样本来计算。

直观上看，利用的信息量大了，收敛速度就应该比单纯用一个样本估计梯度值的SGD要快。在一定条件下SAG线性收敛，与全梯度下降（FGD）收敛速度一样。但是SAG带来的问题就是需要内存来维护（保存）每一个旧梯度值。

用空间换时间也是一种不错的思路。

优化问题：

m i n x \in R p g (x) = 1 n \sum i = 1 n f i (x)

$\mathop{min}_{x\in R^p}g(x)=\frac{1}{n}\sum_{i=1}^{n}f_i(x)$
迭代格式：

x k + 1 = x k -

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lem3101

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

随机平均梯度下降（Stochastic Average Gradient Descent，SAG）

qq_25426809的博客

05-08

573

随机平均梯度下降（Stochastic Average Gradient Descent，SAG）是一种随机优化算法，用于求解大规模数据集的最优解。SAG的主要思想是将历史梯度的平均值作为梯度的估计。它结合了随机梯度下降（SGD）的计算效率和批量梯度下降（BGD）的收敛性。通过使用历史梯度的平均值，SAG能够在每次迭代时减小梯度估计的方差，从而加速收敛。

梯度下降算法总结 (FG,SG,SAG,mini-batch,Momentum等等)

Oscar2018的博客

07-23

1万+

1引言机器学习是指通过计算机学习数据中的内在规律性信息，获得新的经验和知识，以提高计算机的智能性，使计算机能够像人那样去决策[1]。通常我们在学习一个模型时首先要收集大量关于这个问题的数据，其目标属性作为样本标签是已知的，记为y.其次根据实际问题建立预测模型，预测模型对样本标签的预测为h(x)，显然y与h(x)之间的误差越小越好，这个误差被称为损失函数。因此，机器学习中的许多问题都可以归结为：...

1 条评论您还未登录，请先登录后发表或查看评论

梯度下降法算法比较和进一步优化

程序猿-凡白的博客

07-17

1651

梯度下降法算法比较和进一步优化常见的梯度下降算法有：全梯度下降算法(Full gradient descent）, 随机梯度下降算法（Stochastic gradient descent）, 小批量梯度下降算法（Mini-batch gradient descent）, 随机平均梯度下降算法（Stochastic average gradient descent）它们都是为了正确地调节权重向量，通过为每个权重计算一个梯度，从而更新权值，使目标函数尽可能最小化。其差别在于样本的使用方式不同。我们

线性收敛的随机优化算法之 SAG、SVRG（随机梯度下降）

sun_shengyun的专栏

12-22

2万+

原文出处：https://zhuanlan.zhihu.com/p/22402784?utm_source=tuicool&utm_medium=referral 这篇文章回顾了基于梯度的随机优化算法在这几年的重要发展 -- SAG、SVRG。很多常见的机器学习模型的目标（比如最小二乘做线性回归、逻辑回归）都可以概括成以下这种一般形式：

梯度下降：全梯度下降算法(FG)、随机梯度下降算法(SG)、小批量梯度下降算法(mini-batch)、随机平均梯度下降算法(SAG)。梯度下降法算法比较和进一步优化。

あずにゃん梓喵的博客

08-12

3890

日萌社人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战（不定时更新） 2.2 梯度下降(Gradient Descent) 2.2.1 什么是梯度下降梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景：一个人被困在山上，需要从山上下来(i.e. 找到山的最低点，也就是山谷)。但此时山上的浓雾很大...

优化算法（SAGA、SAG、RMSProp、Nesterov Accelerated Gradient、随机和小型批处理梯度）

05-10

优化算法（SAGA、SAG、RMSProp、Nesterov Accelerated Gradient、随机和小型批处理梯度）

优化算法总结

jerry__young的博客

07-03

310

常见优化算法总结

线性回归-梯度下降算法四种方式小介

weixin_38871988的博客

11-07

420

梯度下降假设函数(hypothesis function)：全梯度下降算法(Full gradient descent), 随机梯度下降算法(Stochastic gradient descent), 小批量梯度下降算法(Mini-batch gradient descent), 随机平均梯度下降算法(Stochastic average gradient descent) 全梯度下降算法(FG) 批量梯度下降法，是梯度下降法最常用的形式，具体做法也就是在更新参数时使用所有的样本来进行更新。计算训

随机方差缩减方法 - SAGA 与非凸近端变体 ProxSAGA: proximal SAGA

猿猿的小仓库

02-07

1634

转载自https://blog.csdn.net/u011961856/article/details/77771493 SGD（Stochastic Gradient Descent）随机梯度下降算法对于目标函数: 目标函数优化步骤: 1.随机旋转索引j,即函数fj(x)fj(x); 2.更新参数x,采用sgd公式为: SAGA(STOCHASTIC VARIANCE REDUCTION METHODS)随机方差缩减方法目标函数优化步骤: 1.随机旋转索引j,即...

系统学习深度学习（十）--优化算法

工作笔记

02-21

1万+

http://blog.csdn.net/chenzhi1992/article/details/52850759 类似，也值得一看http://blog.csdn.net/shenxiaolu1984/article/details/52511202转自：http://blog.csdn.net/majinlei121/article/details/47260917那篇优化算法论文On opt...

随机优化算法-蚁群算法

MingCHEN的博客

02-09

1万+

随机优化算法-蚁群优化算法摘要：蚁群算法是一种用来寻找优化路径的概率型算法。它由Marco Dorigo于1992年在他的博士论文中提出，其灵感来源于蚂蚁在寻找食物过程中发现路径的行为。这种算法具有分布计算、信息正反馈和启发式搜索的特征，本质上是进化算法中的一种启发式全局优化算法。一、简介蚁群算法(ant colony optimization, ACO)，又称蚂蚁算法，...

Lasso算法理论介绍

热门推荐

slade_sha的博客

11-14

9万+

先讲一波过拟合：均方根误差也叫标准误差，即为√[∑di^2/n]=Re，n为测量次数；di为一组测量值与真值的偏差。实际考虑回归的过程中，我们需要考虑到误差项，这个和简单的线性回归的公式相似，而在正则化下来优化过拟合这件事情的时候，会加入一个约束条件，也就是惩罚函数：这边这个惩罚函数有多种形式，比较常用的有l1,l2，大概有如下几种：

Python3《机器学习实战》学习笔记（七）：Logistic回归实战篇之预测病马死亡率

Jack-Cui

09-05

3万+

本文对梯度上升算法和改进的随机梯度上升算法进行了对比，总结了各自的优缺点，并对sklearn.linear_model.LogisticRegression进行了详细介绍。

关于Stochastic Gradient Descent和机器学习的优化问题

Trasper1的博客

12-05

1162

给定一个问题以及相应的data (是一个sample pair（x，y）)，若采用机器学习的手段来解决，那么要分两步走： 1. 模型选择：即选定一族函数 F，这个大F可以是SVM，linear regression，boosting，或者nerual networks（neural network就是一个funciton approximator）等等。 2. 模型参数估计：选定了模型即选定...

excel公式编辑器_不需要写代码，利用PQ快速合并多个Excel表格

weixin_39824020的博客

10-28

2208

小伙伴们，之前我给大家分享过一个利用VBA快速合并多个Excel表格的小技巧，没有看的点右边链接 Excel篇：几秒钟快速合并多个工作簿mp.weixin.qq.com但是今天我准备给大家分享一个不用写代码，也可以快速合并多个表格的技巧，用的插件就是 Power Query（查询增强版），后面都简称PQ关于PQ插件，我给大家简单介绍一下：简介：PQ也称超级查询，是微软官方出的一个Excel...

随机梯度下降及其变种的综述

u013453936的专栏

01-17

2736

随机梯度算法作为重要的一阶优化算法，每次采用小部分样本进行梯度的更新，迭代速度比较快。在随机梯度算法的基础上，为了选择合适的学习率，出现动量法与自适应学习率算法。为了更好的学习稀疏特征，随机梯度下降算法融合RDA以及FOBOS形成FTRL算法。由于随机梯度下降算法每次采用部分样本进行梯度计算，引入较大的方差，因此提出减少方差的随机梯度算法svrg以及sag算法。本文将从随机梯度下降算法开始，并对其

随机梯度下降

LW_ICE

05-01

5377

梯度下降算法其实也很好理解，以简单的二元函数为例，如果我们想找到二元函数的极值，一般第一步我们是对该二元函数求导，然后令其为0，找出此时自变量的值，将该自变量代入函数式，即可求出该函数的极值。随机梯度下降算法是为了解决深度学习中多元目标函数的最优值问题，已经有很多该算法的变种算法。那么在深度学习中，针对实际问题，我们首先需要建立一个模型，然后确定一个目标函数。目标函数通常是网络输出

XGBoost模型跟Logistic Regression模型的本质区别

数据分析之路

09-24

1万+

把握机器学习算法关键点有两个 1、loss function的理解(包括：特征X/标签Y配对的建模，X/Y配对建模的loss function的设计)。 2、loss function的求解过程。这两点串接在一起构成了算法实现的主框架。