庄小焱

我是一名赋有文化的高级技术工程师

基于强化学习的GridWorld(代码+思路)

四个函数表达式(下文中的行动也可称为决策): 函数一、状态-价值函数: 函数二、行动-价值函数:(虽然这里没有对下式进行展开,但是如果展开的话,就是上式除掉第一个求和符号和及π(a|s))  函数三、最优状态-价值函数:    函数四、最优行动-价值函数...

2018-12-16 22:07:48

阅读数 1044

评论数 0

提示
确定要删除当前文章?
取消 删除