价值函数近似

价值函数逼近

在传统TD算法、Q-leanring中,V价值和Q价值通常是用表格存储,不适用于大规模问题。可以采用近似器来拟合真实的价值函数。
Q ( s , a , θ ) ≈ Q π ( s , a ) Q(s,a,\theta) ≈Q_π(s,a) Q(s,a,θ)Qπ(s,a)
V ( s , θ ) ≈ V π ( s ) V(s,\theta) ≈V_π(s) V(s,θ)Vπ(s)
用一个带 θ \theta θ参数的函数近似器,来代替真实的价值函数,通过训练,找到合适的参数 θ \theta θ,使得两者的误差尽可能小。( θ \theta θ是一系列参数的总称,不是指只有一个参数, θ T = [ θ 1 , θ 2 , . . . ] \theta^T=[\theta_1,\theta_2,...] θT=[θ1,θ2,...])
常用的近似器有线性模型神经网络、决策树、最近邻法等。
强化学习的样本数据是非静态的,且非独立同分布(后一个状态往往与前一个状态有很强的关联性),因此要求近似器也要适用于非静态、非独立同分布的数据。

价值函数近似求解

找到了合适的价值函数的近似器 V ( s , θ ) V(s,\theta) V(s,θ),如何找到合适的 θ \theta θ,使得近似器能够真正代替真实 V π ( s ) V_π(s) Vπ(s)。建立一个两者的平方误差函数,
J ( θ ) = E [ ( V π ( s ) − ( V ( s , θ ) ) 2 ] J(\theta)=E[(V_π(s)-(V(s,\theta))^2] J(θ)=E[(Vπ(s)(V(s,θ))2]
转化成求函数 J ( θ ) J(\theta) J(θ)的优化问题,即找到 θ \theta θ使得 J ( θ

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值