基于策略的强化学习(一)

最新推荐文章于 2024-01-24 17:27:38 发布

沐念丶

最新推荐文章于 2024-01-24 17:27:38 发布

阅读量1.3k

点赞数

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/ZongXS/article/details/107034050

版权

强化学习专栏收录该内容

9 篇文章 3 订阅

订阅专栏

基于策略的强化学习

基于策略的强化学习解决的问题
策略目标函数

基于策略的强化学习解决的问题

解决行为空间连续、观测受限、随机策略的强化学习等问题。

策略目标函数

在基于策略的强化学习中，策略 $\pi$ 可以被描述为一个包含参数 $\theta$ 的函数：
在这里插入图片描述该函数确定了在给定的状态和一定的参数设置下，采取任何可能行为的概率，是一个概率密度函数。在实际应用这个策略时，选择最大概率对应的行为或者以此为基础进行一定程度的采样探索。参数 $\theta$ 决定了策略的具体形式。因而求解基于策略的学习问题转变为如何确定策略函数的参数 $\theta$ 。通过设计一个基于参数 $\theta$ 的目标函数J( $\theta$ )，通过相应的算法寻找最优参数。
J( $\theta$ )可以设计为使用策略 $\pi_\theta$ 时的初始状态价值，也就是初始状态收获的期望：
在这里插入图片描述有些环境是没有明确的起始状态和终止状态，个体持续的与环境进行交互。在这种情况下使用平均价值或者每一时间步的平均奖励来设计策略目标函数：
其中， $d^{\pi_\theta}\left ( s\right )$ 是基于策略 $\pi_θ$ 生成的马尔科夫链关于状态的静态分布。与价值函数近似的目标函数不同，策略目标函数的值越大代表着策略越优秀。可以使用与梯度下降相反的梯度上升来求解最优参数：
在这里插入图片描述参数θ使用下式更新：
假设现在有一个单步马尔科夫决策过程，对应的强化学习问题是个体与环境每产生一个行为交互一次即得到一个即时奖励 $r=R_{s,a}$ ，并形成一个完整的状态序列。策略目标函数为：
对应的策略目标函数的梯度为：
在这里插入图片描述上述公式建立了策略梯度与分值函数以及行为价值函数之间的关系。分值函数的在基于策略梯度的强化学习中有着很重要的意义。后面通过两个常用的基于显性特征组合的策略来解释说明。

沐念丶

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
基于策略的强化学习(一)

基于策略的强化学习基于策略的强化学习解决的问题解决行为空间连续、观测受限、随机策略的强化学习等问题策略目标函数在基于策略的强化学习中，策略π可以被描述为一个包含参数θ的函数：该函数确定了在给定的状态和一定的参数设置下，采取任何可能行为的概率，是一个概率密度函数。在实际应用这个策略时，选择最大概率对应的行为或者以此为基础进行一定程度的采样探索。参数θ决定了策略的具体形式。因而求解基于策略的学习问题转变为如何确定策略函数的参数θ。通过设计一个基于参数θ的目标函数J(θ)，通过相应的算法寻找最
复制链接

扫一扫

专栏目录