RLAI读书笔记-第九章-On-policy Prediction with Approximation

最新推荐文章于 2020-05-02 16:57:22 发布

cuixuange

最新推荐文章于 2020-05-02 16:57:22 发布

阅读量195

点赞数

分类专栏： machine-learning 强化学习基础

本文链接：https://blog.csdn.net/u014297722/article/details/82262215

版权

本文详细探讨了在强化学习中使用近似值函数进行在线策略预测的方法，包括线性函数、神经网络、决策树等。文章指出，由于环境的不稳定性，传统的监督学习方法可能不适用，因此提出了均方误差作为评估预测质量的标准，并介绍了随机梯度下降和半梯度下降等优化策略。此外，还讨论了线性方法中的特征构造、人工神经网络以及最小二乘法TD学习。

摘要由CSDN通过智能技术生成

On-policy Predicttion with Approximation
策略π的状态价值的近似值

值函数逼近==>在有限状态集推广到更大的集合并有良好近似效果
(table lookup对于大规模数据很难解决)
V线性函数,W特征权重向量
V神经网络,W layers之间的链接权重
V决策树,W split points?

9.1 value-function Approximation
传统监督学习的近似在RL中遇到的问题
主要: 环境可能是不稳定的,online效果不好
目标: 非独立，非均匀分布，非静态的的数据获取近似函数

9.2 The Prediction Objective
近似预测的目标判断预测方法的质量:
mean-squared value error 均方误差 P221

9.3 Stochastic-gradient & Semi-gradient
随机梯度目标:
寻找最小的W权重,使得近似函数 V^ 和实际函数Vπ的均方差最小化
即:
变量W的梯度下降可以寻找局部最小:
△W = α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223
难点:
1. ▽的导数值怎么计算呢？？
2. α值stepsize是很小的更新? https://zhuanlan.zhihu.com/p/26007538
半梯度:

9.4 Linear Methods