1、简介
之前提到的方法目的是求值函数,通过值函数找打策略
基于表格的方法:
基于表格方法精确的描述每一个动作和状态的大小,表格大小会随着状态数量和动作数量快速膨胀,对于表格中某一项的更新不会影响到其它项的更新
强化学习能够用来解决大规模的问题,例如围棋:256像素点数幂
之前使用表格来表示值函数
在大规模MDPs中会存在需要在内存空间中存储大量的状态或动作,学习比较缓慢
解决大规模MDPs的方法,使用函数近似的方法:
从已经经历过的状态推广到未见的状态,可以使用MC或者TD更新参数W
值函数近似的类型:
第三个,输入状态可以无限,但是动作有限m,这样做的好处是算出a1,...am个Q值即可用贪婪算法找出最优动作
函数近似器:
考虑可微的函数近似器:
比如:
线性模型
神经网络
。。。
2、增量算法
梯度算法
梯度下降:
值函数近似和随机梯度下降
线性函数近似
特征向量:
线性值函数近似:
表格检索特征:
值函数近似下的增量式评价算法
增量式评价算法:前面是假设给定了真实的值函数,但是在RL环境中,并不知道真实的值函数,只有奖励值。直观地,用目标值代替值函数
值函数近似下的MC:
值函数近似下的TD
值函数近似下的TD(lambda)
值函数近似下的增量式优化算法
策略迭代:
对Q函数的近似:
线性Q函数的近似
增量式策略优化算法:
3、收敛性简介
策略评价时的收敛问题:
策略优化算法的收敛性: