![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CS294
文章平均质量分 92
困比比
研究方向为机器学习,深度强化学习
展开
-
CS294(7) 基于值函数的方法(总结版)
PG算法与AC算法本质上都是寻找策略梯度,只是AC算法同时使用了某种值函数来试图给出策略梯度的更好估计。但是策略梯度算法通常有非常高的方差,因此希望能够抛开策略梯度这一架构。 优势函数Aπ(st,at)=Qπ(st,at)−Vπ(st)A^{\pi}(s_t,a_t)=Q^{\pi}(s_t,a_t)-V^{\pi}(s_t)Aπ(st,at)=Qπ(st,at)−Vπ(st),指的是给...原创 2019-09-14 13:08:28 · 1332 阅读 · 0 评论 -
CS294(8) 深度增强学习中的Q学习方法(总结版)
Background Q学习方法抛开了一个显式的策略,直接去学习Q函数,使我们知道在某个特定的状态下执行某一操作效果有多好。但是如果我们使用神经网络来进行拟合可能出现的不收敛现象,这一问题将在所有的使用某些结构(如神经网络)拟合值函数,然后使用拟合的值函数作为“评论家”来做自助的方法中都存在。 Replay Buffer & Target Network 以on-line Q迭代算法为例,...原创 2019-09-14 20:01:29 · 1684 阅读 · 0 评论 -
CS294(5) 策略梯度法(总结版)
文章目录策略梯度法REINFORCEPartial observability问题一:高方差问题背景方差削减方法一:因果关系(causality)方法二:baseline问题二:on-policy问题问题三用自动差分器做策略梯度法策略梯度法在实践中的注意事项 我们已经知道智能体通过增强学习与环境打交道的运作机理: 状态sss下根据由参数θ\thetaθ的神经网络所表示的测量πθ(a∣s)\pi...原创 2019-09-15 16:07:00 · 1007 阅读 · 0 评论 -
CS294(6) 演员-评论家算法(总结版)
文章目录策略梯度法与值函数的结合Backgroundbaseline演员-评论家算法policy evaluationMonte Carlo evaluation with function approximationAn actor-critic algorithm贴现因子(discount factors)实现细节网络结构设计Online actor-critic in practiceCri...原创 2019-09-15 22:02:25 · 3093 阅读 · 0 评论