![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 83
时间里的河
菜鸡
展开
-
Off-policy vs on-policy(大师级解释,推荐)
It can either update the value and policy upon receiving an experience sample or update after collecting all experience samples.(注意了,虽然online learning版本的Q-learning 可以实时地更新策略,但是它的新策略并不用来生成样本。简单滴说,behavior policy and target policy 一样的,那就是on policy。原创 2023-03-06 00:45:00 · 624 阅读 · 0 评论 -
TD算法超详细解释,一篇文章看透彻!
上一节我们讲到,Robbins-Monro Algorithm算法解决了下面的这个求期望的问题,本节我们把问题稍微复杂化一点。看下边这个期望的计算:假设我们可以获得随机变量R,XR,XR,X的样本那么可以定义下面的函数:其实,也就是是把之前的一个随机变量变成了一个多元随机变量的函数。下面我们展示,这个例子其实和TD算法的表达很相似了。本节所指的TD算法特指用于估测状态价值的经典TD算法。这个状态价值的期望形式的表示,有时候被称为贝尔曼期望等式,其实是贝尔曼方程的另一种表达,它是设计和分析TD算法的重要工具。原创 2023-03-04 20:33:52 · 3875 阅读 · 0 评论 -
Stochastic Approximation —Stochastic gradient descent 随机近似方法的详解之(四)随机梯度下降
郑重声明:本系列内容来源 赵世钰(Shiyu Zhao)教授的强化学习数学原理系列,本推文出于非商业目的分享个人学习笔记和心得。如有侵权,将删除帖子。SGD算法在机器学习领域被广泛应用。w是要被优化的参数,X是个随机变量,两者都可以是向量。在函数f是凸函数的情况下,求解上述问题的直接方法是梯度下降。右边式子的期望的梯度是什么呢?于是有下面的式子:然而,这个期望的梯度实际中很难求到。原创 2023-03-04 12:49:00 · 533 阅读 · 0 评论 -
Stochastic Approximation 随机近似方法的详解之(三)Dvoretzky’s convergence theorem
共同决定的随机序列。证明在这里不展开,需要用到quasimartingales的知识。到这里也就证明了RM算法求解方程根的收敛性。然后就有:(注意,下面用到了中值定理)不再是确定的了,而是由。原创 2023-03-02 19:48:25 · 809 阅读 · 3 评论 -
Stochastic Approximation 随机近似方法的详解之(二)Robbins-Monro Algorithm
当函数g的表达式已知或者它的导数已知的时候,求解当然很简单。但是当g未知的时候(比如是一个神经网络或者g不能被精确观察到的时候),问题就困难起来了。这个时候我们知道的是什么呢?RM算法是随机近似领域的先驱性工作。众所周知的随机梯度下降算法是RM算法的一种特殊情况。是我们要最小化的目标函数。这就符合了RM算法的设定。展开之后,和前面用迭代更新方法求均值是一模一样的。满足一些温和的条件的时候,w是会收敛到。我们接下来说明它是特殊的RM算法。RM算法的收敛特性怎么去证明呢?我们想要去求下面这个等式的根,原创 2023-03-02 17:27:11 · 2074 阅读 · 1 评论 -
Stochastic Approximation 随机近似方法的详解之(一)
随机近似的定义:它指的是一大类随机迭代算法,用于求根或者优化问题。temporal-difference algorithms是随机近似算法的一个特殊情景。原创 2023-03-02 15:47:26 · 801 阅读 · 0 评论