- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 强化学习(六):价值函数的逼近(近似)
在强化学习(五):Sarsa算法与Q-Learning的学习中,我们都是假设状态是有限的,而且数量也不多,就像例程中都是使用格子世界,每个格子代表一个状态。但是,现在让我们来假设我们在下围棋,每下一个子就是一种状态,那么这些状态就非常多了,如果在程序中要用一个表格来表示状态与状态对应的值函数的话,那么内存就远远不够用了。另外,当状态不是离散的时候,就无法用表格来表示了。所以,我们需要另外的...
2018-02-18 14:42:42 12425
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人