- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 A Distribution Perspective on Reinforcement Learning(C51) 概率分布下的贝尔曼方程
原本的Bellman Equation 更新为 ////// 状态值函数Q(x,a)Q(x,a)Q(x,a)是一个单点值函数,表示x状态下执行a动作的累计回报(期望) 去掉期望后,得到的就是一个关于随机变量的函数关系: ////// 这里的随机变量Z(x,a)Z(x,a)Z(x,a) 是在x状态下执行a动作之后的回报形成的随机变量。注意它是具有概率...
2018-12-26 09:50:07 3421
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人