Stochastic Approximation —Stochastic gradient descent 随机近似方法的详解之（四）随机梯度下降

时间里的河

于 2023-03-04 12:49:00 发布

阅读量533

点赞数

分类专栏：强化学习文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37726222/article/details/129333123

版权

强化学习专栏收录该内容

6 篇文章 3 订阅

订阅专栏

Stochastic Approximation —Stochastic gradient descent 随机近似方法的详解之（四）随机梯度下降

郑重声明：本系列内容来源赵世钰(Shiyu Zhao)教授的强化学习数学原理系列，本推文出于非商业目的分享个人学习笔记和心得。如有侵权，将删除帖子。原文链接：https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

SGD算法在机器学习领域被广泛应用。We will show that SGD is a special RM algorithm and the mean estimation algorithm is a special SGD algorithm. 假定我们要解决下面这个优化问题：
20230303141603-2023-03-03

$w$ 是要被优化的参数， $X$ 是个随机变量，两者都可以是向量。

在函数f是凸函数的情况下，求解上述问题的直接方法是梯度下降。

右边式子的期望的梯度是什么呢？

于是有下面的式子：

然而，这个期望的梯度实际中很难求到。
Another way is to collect a large number of iid samples $\{x_i\}^n_i=1$ of X so that the expected value can be approximated as :

$\mathbb{E}\left[\nabla_w f\left(w_k, X\right)\right] \approx \frac{1}{n} \sum_{i=1}^n \nabla_w f\left(w_k, x_i\right)$

通过这样的近似，(6.11)公式就变成了：

This algorithm is called batch gradient descent (BGD) because it uses all the samples as
a single batch in every iteration. 注意，BGB（批梯度）算法的每一次迭代用的都是全部的样本。

然而事实上样本是一个一个被收集的。我们希望 $w$ 能够实时的随着抽样的进行而更新。于是有了下面的随机梯度算法：

随机二字的含义是抽样过程的随机性，也就是说，这个方法依赖于随机抽样。

这个梯度项的替换，能否保证最优解的收敛性呢？

看了上面的解释，豁然开朗，原来二者之间差了一个噪声项， $\alpha_k\eta_k$ 这一个扰动项是收敛到0的。所以这个扰动项的加入并没有破坏收敛性。

SGD‘s apply to mean estimation

我们来说明 mean estimation 其实是一种特殊的SGD。

首先，把mean estimation表示成如下的优化问题：

在这种情况下，期望的表达式，或者说样本的分布情况并不知道，自然就无法求 $\mathbb{E}$ 对于w的导数了。

sgd的做法是什么呢？

SGD收敛性的分析

由于抽样是随机的，所以估计是不准确的。问题是，SGD的收敛是随机的吗，是缓慢的吗？

先来看看批梯度和随机梯度之间的相对误差：

如果 $\delta_k$ 很小，那么我们可以认为随机梯度的效果和标准梯度下降相似。注意，下面公式中，分母上新增加的那个项，因为是在最优解处，所以梯度值为0。第二个等号成立是因为中值定理。

如何理解最后这个结论呢？

也就是说，w的初始值离最优值距离比较远的时候，SGD的算法的表现会更像梯度下降；而w的初始值离最优值距离比较接近的时候，SGD的算法的收敛会表现出一定的随机性。

在下面这个均值估计问题中，随机变量 ${X}$ 代表二维空间的随机变量。注意是二维哦！！
我们可以看到不同的梯度下降算法的收敛过程。

下面描述了实验的设定：

可以看到，SGD确实在接近最优值的时候，展示出了一定程度的随机性。

SGD的确定性公式

在这种情况下，解决这个问题的梯度下降算法就变成了下面的形式：

假定集合很大并且我们一次只能抽一个样本，这种情况下，我们肯定还是希望能够渐进地实时更新最优解。
然后，我们就可以用下面的迭代算法了：

解决的办法是什么呢？
通过引入样本集合上的随机变量 $X$ ，可以把确定性的优化问题变成随机形式的：

BGD, SGD, and Mini-batch GD

以均值估计任务为例子来看看三种算法：

需要注意的是当MBGD的m=n的时候，它和BGD仍然不一样。为啥呢：

另外，MBGD的收敛速度一般来说比SGD更快：

Summary

知道为啥要反复讨论均值估计问题吗？
因为在强化学习中，状态价值和动作价值都被定义为随机变量的期望。

强化学习算法相比于其他的问题求解方法的特点优势在哪里呢？

也就是说，强化学习不需要知道目标函数具体的表达是什么。它是一个黑盒方法，只需要知道目标函数的输入和输出。著名的随机梯度下降算法就是一种特殊的强化学习算法。

随机梯度下降的基本要点是什么呢？

它可以在不知道随机变量的分布的情况下通过样本求解到一个无偏的解。

数学直观上看，随机梯度是把梯度下降算法中的期望的梯度替换成了一个随机梯度。

时间里的河

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Stochastic Approximation —Stochastic gradient descent 随机近似方法的详解之（四）随机梯度下降

郑重声明：本系列内容来源赵世钰(Shiyu Zhao)教授的强化学习数学原理系列，本推文出于非商业目的分享个人学习笔记和心得。如有侵权，将删除帖子。SGD算法在机器学习领域被广泛应用。w是要被优化的参数，X是个随机变量，两者都可以是向量。在函数f是凸函数的情况下，求解上述问题的直接方法是梯度下降。右边式子的期望的梯度是什么呢？于是有下面的式子：然而，这个期望的梯度实际中很难求到。
复制链接

扫一扫

专栏目录

时间里的河 CSDN认证博客专家 CSDN认证企业博客

码龄7年

142: 原创

5万+: 周排名

10万+: 总排名

22万+: 访问

: 等级

2589: 积分

59: 粉丝

84: 获赞

32: 评论

359: 收藏

私信

关注

热门文章

分类专栏

量化交易 15篇
强化学习 6篇
工具 10篇
高频交易研究 3篇
环境配置大问题 3篇
资源 2篇
kungfu 1篇
terminal 1篇
快捷键 1篇
CS 9篇
java 26篇
随笔 21篇
日记 3篇
读书 4篇
Java核心技术卷一 7篇
数据挖掘 2篇
软件工程 3篇
js 2篇
android

最新评论

Stochastic Approximation 随机近似方法的详解之（二）Robbins-Monro Algorithm
zhangpengfei233: 不太确定哈，第一个例子貌似错误了，g的梯度没有没有边界，导致不收敛，我刚刚算了一下。
MAPPO 算法的深度解析与应用和实现
时间里的河: 我觉得主要是值函数的输入似乎不是CTDE中的那个全局状态表示，而是所有智能体的obs的组合
MAPPO 算法的深度解析与应用和实现
蓝天白云大海沙滩Herman: 请问一下MAPPO是集中训练和分散执行(CTDE)算法吗，为什么原文related work第一段最后一句话说不是CTDE"our method, MAPPO, fails into the CTDE category by combining individual PPO training with a global valuw function".如果是CTDE，这个算法是怎么体现的呢，具体在流程上
快速升级到g++11和gcc11
小九华: https://www.littlezhang.com/2021/01/%E4%BD%BF%E7%94%A8%E5%8F%8D%E5%90%91%E4%BB%A3%E7%90%86%E5%8A%A0%E9%80%9F-ubuntu-ppa/#:~:text=%E8%BF%99%E4%B8%AA%20%E7%9F%A5%E4%B9%8E%E5%9B%9E%E7%AD%94%20%E5%BE%88%E5%A5%BD%E7%9A%84%E8%A7%A3%E5%86%B3%E4%BA%86%E9%97%AE%E9%A2%98%E3%80%82%20%E4%BD%BF%E7%94%A8%E4%B8%AD%E7%A7%91%E5%A4%A7%E6%8F%90%E4%BE%9B%E7%9A%84%E5%8F%8D%E5%90%91%E4%BB%A3%E7%90%86%E5%8F%AF%E4%BB%A5%E6%8F%90%E9%AB%98%20PPA%20%E7%9A%84%E4%B8%8B%E8%BD%BD%E9%80%9F%E5%BA%A6%E3%80%82%20%E5%9C%A8%20%2Fetc%2Fapt%2Fsources.list.d,PPA%20%E6%B7%BB%E5%8A%A0%E7%9A%84%20list%20%E6%96%87%E4%BB%B6%EF%BC%8C%E6%8A%8A%E5%85%B6%E4%B8%AD%E7%9A%84%20http%3A%2F%2Fppa.launchpad.net%20%E6%9B%BF%E6%8D%A2%E4%B8%BA%20https%3A%2F%2Flaunchpad.proxy.ustclug.org%20%E3%80%82 解决了
快速升级到g++11和gcc11
小九华: install速度极慢怎么办呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。