基于Pytorch的强化学习(DQN)之 REINFORCE with baseline

最新推荐文章于 2024-05-25 10:00:38 发布

ZDDWLIG

最新推荐文章于 2024-05-25 10:00:38 发布

阅读量1.1k

点赞数 7

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/ZDDWLIG/article/details/123978102

版权

深度学习专栏收录该内容

23 篇文章 12 订阅

订阅专栏

本文介绍了强化学习中的算法REINFORCE，探讨如何估计期望、价值函数和状态函数。通过蒙特卡罗方法近似期望，使用观测的return估计价值函数，并利用神经网络近似状态价值函数。算法中涉及策略网络和价值网络的更新，通过梯度上升和梯度下降优化参数，以提升智能体的学习效果。

摘要由CSDN通过智能技术生成

1. 引言

我们上次讲到了baseline的基本概念，今天来讲讲使用到baseline的常用算法：REINFORCE

2. 估计

我们之前得到了状态价值函数的梯度表达式 $\frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))]$

我们希望使其梯度上升，现状就需要解决这么几个难题：等式右侧是一个期望表达式，不好计算；含有未知的 $Q_{\pi}(s_t,a_t)$ ；含有未知的 $V_{\pi}(s_t)$ ，现在我们来解决这几个问题。

2.1 估计期望

首先解决期望问题，我们上次引入了随机梯度函数 $g(a_t)=\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))$

根据 $a\sim \pi(a|s)$ 抽取 $a_t$ 使用蒙特卡罗算法近似这个期望，则 $\frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}\approx g(a_t)=\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))$ ，这样就解决了期望的问题。

2.2 估计价值函数

我们虽然解决了期望的问题，但是等式右侧还有 $Q_{\pi}(s_t,a_t)$ ，由于 $Q_{\pi}(s_t,a_t)$ 是return的期望，于是我们可以考虑使用观测到的return来近似 $Q_{\pi}(s_t,a_t)$ ，在一把对局结束之后我们获得一个trajectory $(s_1,a_1,r_1,...,s_n,a_n,r_n)$ ，我们就可以计算 $Q_{\pi}(s_t,a_t)\approx u_t=\sum_{i=t}^{n}\gamma^{i-t}r_i$ ，这样一个未知量就被解决了，这种方法也是蒙特卡罗算法。

2.3 估计状态函数

最后一步就是近似 $V_{\pi}(s_t)$ ，这里我们使用神经网络 $v(s;w)$ 来近似状态价值函数 $V_{\pi}(s)$ ，即 $V_{\pi}(s)\approx v(s;w)$ 。

3. 算法

我们的算法中出现了两个神经网络，于是我们需要分别更新两个网络的参数

3.1 策略网络

第一个网络近似的是策略函数 $\pi(a|s)$ 状态价值函数 $\frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}$ 的梯度用 $\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(u_t- v(s;w))$ 近似。令 $u_t- v(s;w)=-\delta_t$

我们需要价值函数变大，所以我们使用梯度上升来更新策略网络 $\theta\leftarrow \theta-\beta\,\delta_t\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}$

3.2 价值网络

第二个网络就是我们引入近似 $V_{\pi}(s)$ 的神经网络 $v(s;w)$

由于 $V_{\pi}(s_t)=E[U_t|s_t]\approx u_t$ 我们要使 $v(s;w)\rightarrow V_{\pi}(s)$ ，只需要 $v(s;w)\rightarrow u_t$ ，也就是减小

$\delta_t=v(s;w)-u_t$ ，于是我们定义loss函数 $\frac{\delta^2}{2}$ 并做梯度下降 $w\leftarrow w-\alpha\delta_t\,\frac{\partial \,v(s_t;w)}{\partial \,w}$

ZDDWLIG

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
5
评论
基于Pytorch的强化学习(DQN)之 REINFORCE with baseline

目录1. 引言2. 估计2.1 估计期望2.2 估计价值函数2.3 估计状态函数3. 算法3.1 策略网络3.2 价值网络1. 引言我们上次讲到了baseline的基本概念，今天来讲讲使用到baseline的常用算法：REINFORCE2. 估计我们之前得到了状态价值函数的梯度表达式我们希望使其梯度上升，现状就需要解决这么几个难题：等式右侧是一个期望表达式，不好计算；含有未知的；含有未知的，现在我们来解决这几个问题。2.1 估计期望.
复制链接

扫一扫

专栏目录