价值函数近似

最新推荐文章于 2023-07-25 15:59:57 发布

lsjmax

最新推荐文章于 2023-07-25 15:59:57 发布

阅读量533

点赞数 1

分类专栏：强化学习文章标签：强化学习价值函数近似

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lsjmax/article/details/102620220

版权

价值函数逼近

在传统TD算法、Q-leanring中，V价值和Q价值通常是用表格存储，不适用于大规模问题。可以采用近似器来拟合真实的价值函数。
$Q(s,a,\theta) ≈Q_π(s,a)$
$V(s,\theta) ≈V_π(s)$
用一个带 $\theta$ 参数的函数近似器，来代替真实的价值函数，通过训练，找到合适的参数 $\theta$ ，使得两者的误差尽可能小。( $\theta$ 是一系列参数的总称，不是指只有一个参数， $\theta^T=[\theta_1,\theta_2,...]$ )
常用的近似器有线性模型、神经网络、决策树、最近邻法等。
强化学习的样本数据是非静态的，且非独立同分布(后一个状态往往与前一个状态有很强的关联性)，因此要求近似器也要适用于非静态、非独立同分布的数据。

价值函数近似求解

找到了合适的价值函数的近似器 $V(s,\theta)$ ，如何找到合适的 $\theta$ ，使得近似器能够真正代替真实 $V_π(s)$ 。建立一个两者的平方误差函数，
$J(\theta)=E[(V_π(s)-(V(s,\theta))^2]$
转化成求函数 $J(\theta)$ 的优化问题，即找到 $\theta$ 使得

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
价值函数近似

价值函数逼近在传统TD算法、Q-leanring中，V价值和Q价值通常是用表格存储，不适用于大规模问题。可以采用近似器来拟合真实的价值函数。Q(s,a,θ)≈Qπ(s,a)Q(s,a,\theta) ≈Q_π(s,a)Q(s,a,θ)≈Qπ(s,a)V(s,θ)≈Vπ(s)V(s,\theta) ≈V_π(s)V(s,θ)≈Vπ(s)用一个带θ\thetaθ参数的函数近似器，来代替真实...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。