基于策略的强化学习(一)

基于策略的强化学习解决的问题

解决行为空间连续、观测受限、随机策略的强化学习等问题。

策略目标函数

在基于策略的强化学习中,策略 π \pi π 可以被描述为一个包含参数 θ \theta θ 的函数:
在这里插入图片描述 该函数确定了在给定的状态和一定的参数设置下,采取任何可能行为的概率,是一个概率密度函数。在实际应用这个策略时,选择最大概率对应的行为或者以此为基础进行一定程度的采样探索。参数 θ \theta θ 决定了策略的具体形式。因而求解基于策略的学习问题转变为如何确定策略函数的参数 θ \theta θ 。通过设计一个基于参数 θ \theta θ 的目标函数J( θ \theta θ ),通过相应的算法寻找最优参数。
J( θ \theta θ )可以设计为使用策略 π θ \pi_\theta πθ 时的初始状态价值,也就是初始状态收获的期望:
在这里插入图片描述有些环境是没有明确的起始状态和终止状态,个体持续的与环境进行交互。在这种情况下使用平均价值或者每一时间步的平均奖励来设计策略目标函数:
在这里插入图片描述其中, d π θ ( s ) d^{\pi_\theta}\left ( s\right ) dπθ(s)是基于策略 π θ \pi_θ πθ 生成的马尔科夫链关于状态的静态分布。与价值函数近似的目标函数不同,策略目标函数的值越大代表着策略越优秀。可以使用与梯度下降相反的梯度上升来求解最优参数:
在这里插入图片描述参数θ使用下式更新:
在这里插入图片描述假设现在有一个单步马尔科夫决策过程,对应的强化学习问题是个体与环境每产生一个行为交互一次即得到一个即时奖励 r = R s , a r=R_{s,a} r=Rs,a,并形成一个完整的状态序列。策略目标函数为:
在这里插入图片描述对应的策略目标函数的梯度为:
在这里插入图片描述在这里插入图片描述在这里插入图片描述上述公式建立了策略梯度与分值函数以及行为价值函数之间的关系。分值函数的在基于策略梯度的强化学习中有着很重要的意义。后面通过两个常用的基于显性特征组合的策略来解释说明。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值