- 博客(1)
- 收藏
- 关注
原创 推导强化学习bellman方程(正着推)
学习了博客https://blog.csdn.net/u013855642/article/details/105463771,自己mark一下: 延续了sutton的符号表达: 第一部分: tip: 第二部分: 这个地方理解了好久,个人理解这里表达的意思是基于前一个时刻的下一个时刻的期望与基于下一个时刻是相同的。推导不太清楚,但是可以理解,举例:每个状态你吃一个馒头,等你到的时候你吃了5个馒头(回报),期望是吃饱了,那么问你如果在状态就吃了5个馒头,显然期望也是吃饱了。个人理解,可能
2020-07-07 15:43:47
1062
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅