目录
学习考察
首先,基于之前学习笔记的内容,再次复习一下SARSA、Q-learnign、TD算法,详看下面的考题和答案。
引言
之前,我们假设可以以向量或者矩阵的形式来表示值函数或者状态-动作值函数,但是现实世界
今天的内容主要涉及这几个方面:
- Value function approximation
- Monte Carlo policy evaluation with linear function approximation
- TD policy evaluation with linear function approximation
- Control methods with linear value function approximation
1、值函数近似(VFA)
我们采取函数近似的方法来估计给定策略的状态价值函数或动作价值函数。要评估状态价值,我们可以用一个参数为w的v函数来近似状态价值,要评估动作价值,我们可以用一个参数为w的q函数来近似动作价值。参数为w的v函数/参数为w的q函数的形式需要事先给定,并且在学习过程中只更新参数w,一旦参数w完全确定,那么价值估计就完全给定。所以,重点在于如何更新参数w,更新参数的方法既可以用于策略价值估计,也可用于最优策略求解。