Stochastic Approximation 随机近似方法的详解之（二）Robbins-Monro Algorithm

最新推荐文章于 2024-07-23 22:06:37 发布

时间里的河

最新推荐文章于 2024-07-23 22:06:37 发布

阅读量2k

点赞数 3

分类专栏：强化学习文章标签：算法机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37726222/article/details/129303330

版权

强化学习专栏收录该内容

6 篇文章 3 订阅

订阅专栏

6.2 Robbins-Monro Algorithm

RM算法是随机近似领域的先驱性工作。众所周知的随机梯度下降算法是RM算法的一种特殊情况。后面我们再介绍具体的细节。

先看一个例子：

我们想要去求下面这个等式的根，
在这里插入图片描述

BTW，很多问题可以被转化为求根问题。比如， $J (w)$ 是我们要最小化的目标函数。它其实可以被等价转化为下面这个等式的求根问题：
在这里插入图片描述

当函数g的表达式已知或者它的导数已知的时候，求解当然很简单。但是当g未知的时候（比如是一个神经网络或者g不能被精确观察到的时候），问题就困难起来了。这个时候我们知道的是什么呢？

只有输入 $w$ 和带有噪声的输出 $\tilde{g}(w, \eta)$ ，我们要根据他们两个来解这个 $g (w) = 0$ 的方程。

RM 算法如下：
在这里插入图片描述

其中 $w_k$ 是第k次对根的估测， $\tilde{g}(w, \eta)$ 是第 $k$ 个有噪声的观测。 $a_k$ 是一个正的系数。

下面我们来看一个应用RM算法的例子：
在这里插入图片描述

在这里插入图片描述

我们再看另一个例子：
$g(w)=\tanh (w-1)$ ，我们知道 $g (w) = 0$ 的根为1，我们从 $w_1=3$ 开始迭代，并且设定 $a_k=1/k$ ，结果是什么呢？下图展示了 $w_i$ 的动态更新过程。

在这里插入图片描述

RM算法的收敛特性怎么去证明呢？
见《Mathematical Foundation of Reinforcement Learning》Shiyu Zhao P107

应用RM到均值估测上面

均值估计的原始问题为：
在这里插入图片描述

我们提到，在 $\alpha_k$ 满足一些温和的条件的时候，w是会收敛到 $\mathbb{E}[X]$ 的。
我们接下来说明它是特殊的RM算法。

建立如下函数，求解w的问题就变成了求 $g (w) = 0$ 的问题。
在这里插入图片描述
下面是我们观测到的输出：

如何去解释这个输出呢？其实它可以拆分为 $\tilde{g}(w)+\eta$ 这就符合了RM算法的设定。可以使用RM方法求解了。
在这里插入图片描述
其实我们发现了，在 $\tilde{g}(w_k,\eta_k)$ 展开之后，和前面用迭代更新方法求均值是一模一样的。

对RM算法的收敛性感兴趣的朋友可以参考我的下一篇搬运：
Dvoretzky’s convergence theorem

时间里的河

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Stochastic Approximation 随机近似方法的详解之（二）Robbins-Monro Algorithm

当函数g的表达式已知或者它的导数已知的时候，求解当然很简单。但是当g未知的时候（比如是一个神经网络或者g不能被精确观察到的时候），问题就困难起来了。这个时候我们知道的是什么呢？RM算法是随机近似领域的先驱性工作。众所周知的随机梯度下降算法是RM算法的一种特殊情况。是我们要最小化的目标函数。这就符合了RM算法的设定。展开之后，和前面用迭代更新方法求均值是一模一样的。满足一些温和的条件的时候，w是会收敛到。我们接下来说明它是特殊的RM算法。RM算法的收敛特性怎么去证明呢？我们想要去求下面这个等式的根，
复制链接

扫一扫

专栏目录

时间里的河 CSDN认证博客专家 CSDN认证企业博客

码龄7年

142: 原创

5万+: 周排名

12万+: 总排名

22万+: 访问

: 等级

2590: 积分

59: 粉丝

84: 获赞

32: 评论

364: 收藏

私信

关注

热门文章

分类专栏

量化交易 15篇
强化学习 6篇
工具 10篇
高频交易研究 3篇
环境配置大问题 3篇
资源 2篇
kungfu 1篇
terminal 1篇
快捷键 1篇
CS 9篇
java 26篇
随笔 21篇
日记 3篇
读书 4篇
Java核心技术卷一 7篇
数据挖掘 2篇
软件工程 3篇
js 2篇
android

最新评论

Stochastic Approximation 随机近似方法的详解之（二）Robbins-Monro Algorithm
zhangpengfei233: 不太确定哈，第一个例子貌似错误了，g的梯度没有没有边界，导致不收敛，我刚刚算了一下。
MAPPO 算法的深度解析与应用和实现
时间里的河: 我觉得主要是值函数的输入似乎不是CTDE中的那个全局状态表示，而是所有智能体的obs的组合
MAPPO 算法的深度解析与应用和实现
蓝天白云大海沙滩Herman: 请问一下MAPPO是集中训练和分散执行(CTDE)算法吗，为什么原文related work第一段最后一句话说不是CTDE"our method, MAPPO, fails into the CTDE category by combining individual PPO training with a global valuw function".如果是CTDE，这个算法是怎么体现的呢，具体在流程上
快速升级到g++11和gcc11
小九华: https://www.littlezhang.com/2021/01/%E4%BD%BF%E7%94%A8%E5%8F%8D%E5%90%91%E4%BB%A3%E7%90%86%E5%8A%A0%E9%80%9F-ubuntu-ppa/#:~:text=%E8%BF%99%E4%B8%AA%20%E7%9F%A5%E4%B9%8E%E5%9B%9E%E7%AD%94%20%E5%BE%88%E5%A5%BD%E7%9A%84%E8%A7%A3%E5%86%B3%E4%BA%86%E9%97%AE%E9%A2%98%E3%80%82%20%E4%BD%BF%E7%94%A8%E4%B8%AD%E7%A7%91%E5%A4%A7%E6%8F%90%E4%BE%9B%E7%9A%84%E5%8F%8D%E5%90%91%E4%BB%A3%E7%90%86%E5%8F%AF%E4%BB%A5%E6%8F%90%E9%AB%98%20PPA%20%E7%9A%84%E4%B8%8B%E8%BD%BD%E9%80%9F%E5%BA%A6%E3%80%82%20%E5%9C%A8%20%2Fetc%2Fapt%2Fsources.list.d,PPA%20%E6%B7%BB%E5%8A%A0%E7%9A%84%20list%20%E6%96%87%E4%BB%B6%EF%BC%8C%E6%8A%8A%E5%85%B6%E4%B8%AD%E7%9A%84%20http%3A%2F%2Fppa.launchpad.net%20%E6%9B%BF%E6%8D%A2%E4%B8%BA%20https%3A%2F%2Flaunchpad.proxy.ustclug.org%20%E3%80%82 解决了
快速升级到g++11和gcc11
小九华: install速度极慢怎么办呢？

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。