RLAI读书笔记-第九章-On-policy Prediction with Approximation

本文详细探讨了在强化学习中使用近似值函数进行在线策略预测的方法,包括线性函数、神经网络、决策树等。文章指出,由于环境的不稳定性,传统的监督学习方法可能不适用,因此提出了均方误差作为评估预测质量的标准,并介绍了随机梯度下降和半梯度下降等优化策略。此外,还讨论了线性方法中的特征构造、人工神经网络以及最小二乘法TD学习。
摘要由CSDN通过智能技术生成

On-policy Predicttion with Approximation
策略π的状态价值的近似值

值函数逼近==>在有限状态集推广到更大的集合并有良好近似效果
(table lookup对于大规模数据很难解决)
V线性函数,W特征权重向量
V神经网络,W layers之间的链接权重
V决策树,W split points?

9.1 value-function Approximation
传统监督学习的近似在RL中遇到的问题
主要: 环境可能是不稳定的,online效果不好
目标: 非独立,非均匀分布,非静态的的数据获取近似函数

9.2 The Prediction Objective
近似预测的目标 判断预测方法的质量:
mean-squared value error 均方误差 P221

9.3 Stochastic-gradient & Semi-gradient
随机梯度目标:
寻找最小的W权重,使得近似函数 V^ 和实际函数Vπ的均方差最小化
即:
变量W的梯度下降可以寻找局部最小:
△W = α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223
难点:
1. ▽的导数值怎么计算呢??
2. α值stepsize是很小的更新? https://zhuanlan.zhihu.com/p/26007538
半梯度:

9.4 Linear Methods

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值