策略最简单的是查找表(look up table),即表格型方法(tarbular method),如MC,Q-learning和sarsa。
一、有模型和免模型
有模型:知道状态转移函数和奖励函数。如果有模型,智能体实际上没有和环境进行交互,且我们可以使用动态规划的方法解决——这是上一章的内容,上一章都是以有模型为前提的。
但是,当环境未知或模型太大难以迭代计算时,就需要免模型的强化学习。
二、Q表格
补充:强化=用下一个状态的价值更新当前状态的价值=单步更新=时序差分。
三、免模型预测
3.1 蒙特卡洛
可以改写成每次都更新的形式:
把1/N(st)视为学习率,可以写为: