《强化学习》学习笔记3——策略学习

目标函数

        策略学习的目的是获得一个尽可能优的策略函数,使得的这个策略函数在能够取得尽可能大的未来累计回报。我们需要构建一个模型去描述这个策略函数,在训练模型的过程中,需要有一个评价函数来量化评价策略函数的好坏,同时评价结果的反馈可以用于策略函数模型的参数修正。

策略函数

我们可以用\pi(a|s;\theta)模型来近似策略函数\pi(a|s), 其中\theta为模型参数。

状态价值函数

V_{\pi}(s_{t})=E_{A}[Q_{\pi}(s_{t},A)]

其中Q_{\pi}在上篇笔记中有介绍,Q_{\pi}(s_{t},a_{t})表示在当前策略函数\pi下能够获得的未来累计回报的期望。

状态价值用于评价在当前策略函数和当前状态下,能够获得的未来累计回报的期望,为什么是期望?因为这里策略的函数\pi是一个概率分布函数。这样的话,因为当前状态是可以确定的,策略函数越优化,状态价值函数就会越大。所以模型的学习目标可以转化为:求一个尽可能大的V_{\pi}

用神经网络近似状态价值函数

V(s;\theta)=E_{A}[Q_{\pi}(s,A)] = \int _{A} \pi(a|s;\theta) \cdot Q_{\pi}(s,a)

其中\theta是网络参数。

V(s;\theta)和当前状态s有关,s的值是具有随机性的,所以我们可以对V(s;\theta)关于S求期望,得到:

J(\theta)=E_{S}[V(S;\theta)]

我们期望J(\theta)的值最大,所以策略网络的目标就是

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值