On-policy Predicttion with Approximation
策略π的状态价值的近似值
值函数逼近==>在有限状态集推广到更大的集合并有良好近似效果
(table lookup对于大规模数据很难解决)
V线性函数,W特征权重向量
V神经网络,W layers之间的链接权重
V决策树,W split points?
9.1 value-function Approximation
传统监督学习的近似在RL中遇到的问题
主要: 环境可能是不稳定的,online效果不好
目标: 非独立,非均匀分布,非静态的的数据获取近似函数
9.2 The Prediction Objective
近似预测的目标 判断预测方法的质量:
mean-squared value error 均方误差 P221
9.3 Stochastic-gradient & Semi-gradient
随机梯度目标:
寻找最小的W权重,使得近似函数 V^ 和实际函数Vπ的均方差最小化
即:
变量W的梯度下降可以寻找局部最小:
△W = α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223
难点:
1. ▽的导数值怎么计算呢??
2. α值stepsize是很小的更新? https://zhuanlan.zhihu.com/p/26007538
半梯度:
9.4 Linear Methods