![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
deep reinforce learning
秋曾万
这个作者很懒,什么都没留下…
展开
-
RUDDER:回报分解解决强化学习得奖励延迟问题
这里是我的原文,欢迎交流 blog.leanote.com/zc0702@outloo.com原创 2018-07-06 15:41:58 · 5356 阅读 · 0 评论 -
强化学习——基于策略梯度的强化学习算法
在前面的章节里,我们已经学习了基于值函数的强化学习算法,他的核心思想是利用当前的策略ππ\pi与环境进行交互,得到数据之后,利用得到的信息来更新值函数,得到一个新的值函数之后,我们可以利用这个值函数产生一个新的策略π′π′\pi',这个新的策略π′π′\pi’比原来的策略有着更大的期望回报,以此迭代,最终我们将得到一个期望回报很高的策略。从这里可以看出,基于值函数方法得强化学习算法的核心是对值函数...原创 2018-09-05 09:24:41 · 8062 阅读 · 0 评论 -
强化学习--信赖域系方法:TRPO、PPO(附适合初学者阅读的完整PPO代码连接)
在前面的章节里,我们已经介绍了基于策略的强化学习算法,也提到了异策略强化学习需要满足的条件:由于重要性采样的关系我们希望每次更新的时候策略分布之间差距并不是很大,这实际上是一种约束,即我们希望能每次更新的时候不大幅度地改变分布的形态,基于这种考虑openai的前辈们提出了TRPO算法,但是TRPO算法会有一些缺陷,他拿二次函数去近似约束条件,拿一次函数近似待优化的损失函数,这种近似会造成收敛上的困...原创 2018-09-05 22:29:22 · 19315 阅读 · 4 评论 -
强化学习--基于值函数的强化学习算法
在基础篇里我们已经介绍了,当我们得到一个最优值函数的时候,直接在每个状态下取使q(s,a)q(s,a)q(s,a)值最大的action就能得到一个最优的策略,于是一个求解最优策略的问题可以完完全全等效于一个寻找最优值函数的问题。 本节就来探究寻找最优值函数的方法基于蒙特卡洛方法的理论回忆状态-行为值函数: qπ(s,a)=Eπ[∑k=0∞γkRt+k+1|St=s,At=a](37...原创 2018-09-03 16:20:17 · 6966 阅读 · 0 评论 -
强化学习基础
一、马尔可夫决策过程从强化学习的基本原理可以看出他与监督学习与非监督学习的一些差别,在监督、非监督学习中数据是静态的,不需要与环境进行交互,强化学习的环境是动态的,不断交互的过程,所需要的数据也是通过与环境不断交互得到的。所以,与监督学习相比,强化学习涉及的环境更多,比如动作,环境,状态转移概率和回报函数等。强化学习的经典框架就是马尔可夫决策过程简称MDP,下面介绍几个马尔可夫过程需要用到...原创 2018-09-03 16:28:53 · 1171 阅读 · 0 评论 -
A Distribution Perspective on Reinforcement Learning(C51) 概率分布下的贝尔曼方程
原本的Bellman Equation 更新为 ////// 状态值函数Q(x,a)Q(x,a)Q(x,a)是一个单点值函数,表示x状态下执行a动作的累计回报(期望)去掉期望后,得到的就是一个关于随机变量的函数关系://////这里的随机变量Z(x,a)Z(x,a)Z(x,a) 是在x状态下执行a动作之后的回报形成的随机变量。注意它是具有概率...原创 2018-12-26 09:50:07 · 3440 阅读 · 0 评论