Dyna-Q 算法
Dyna-Q 算法是一个经典的基于模型的强化学习算法
Dyna-Q 使用一种叫作Q-planning 的方法来基于模型生成一些模拟数据, 然后用模拟数据和真实数据一起改进策略。(闻到了一点点卡尔曼滤波的味道?)
Q-planning 每次选取一个曾经访问过的状态 s, 采取一个曾经在该状态下执行过的动作a , 通过模型得到转移后的状态 s′ 以及奖励 r, 并根据这个模拟数据( s, a, r, s′) , 用 Q-learning 的更新方式来更新动作价值函数
特别的,当N=0是就是Q-learning,等我有空自己实现一下