2018年02月_Webbley

06月 03月 02月 01月

原创强化学习(六)：价值函数的逼近(近似)

在强化学习(五)：Sarsa算法与Q-Learning的学习中，我们都是假设状态是有限的，而且数量也不多，就像例程中都是使用格子世界，每个格子代表一个状态。但是，现在让我们来假设我们在下围棋，每下一个子就是一种状态，那么这些状态就非常多了，如果在程序中要用一个表格来表示状态与状态对应的值函数的话，那么内存就远远不够用了。另外，当状态不是离散的时候，就无法用表格来表示了。所以，我们需要另外的...

2018-02-18 14:42:42 12425

matlab问题集锦

胞元数组是以“编号”为寻访手段的，而架构数组则是以“名称”为寻访手段的，用以存放不同大小的各类数据的异构容器。数据不能放在架构中，只能存放在域中。

2015-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习(六)：价值函数的逼近(近似)

matlab问题集锦

空空如也

原创强化学习(六)：价值函数的逼近(近似)