基于Pytorch的强化学习(DQN)之 REINFORCE with baseline

本文介绍了强化学习中的算法REINFORCE,探讨如何估计期望、价值函数和状态函数。通过蒙特卡罗方法近似期望,使用观测的return估计价值函数,并利用神经网络近似状态价值函数。算法中涉及策略网络和价值网络的更新,通过梯度上升和梯度下降优化参数,以提升智能体的学习效果。
摘要由CSDN通过智能技术生成

目录

1. 引言

2. 估计

2.1 估计期望

2.2 估计价值函数

2.3 估计状态函数

3. 算法

3.1 策略网络

3.2 价值网络


1. 引言

我们上次讲到了baseline的基本概念,今天来讲讲使用到baseline的常用算法:REINFORCE

2. 估计

我们之前得到了状态价值函数的梯度表达式 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}=E_A[\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))]

我们希望使其梯度上升,现状就需要解决这么几个难题:等式右侧是一个期望表达式,不好计算;含有未知的 Q_{\pi}(s_t,a_t) ;含有未知的 V_{\pi}(s_t),现在我们来解决这几个问题。

2.1 估计期望

首先解决期望问题,我们上次引入了随机梯度函数 g(a_t)=\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t))

根据 a\sim \pi(a|s) 抽取 a_t 使用蒙特卡罗算法近似这个期望,则 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta}\approx g(a_t)=\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(Q_{\pi}(s_t,a_t)- V_{\pi}(s_t)),这样就解决了期望的问题。

2.2 估计价值函数

我们虽然解决了期望的问题,但是等式右侧还有 Q_{\pi}(s_t,a_t) ,由于 Q_{\pi}(s_t,a_t) 是return的期望,于是我们可以考虑使用观测到的return来近似 Q_{\pi}(s_t,a_t),在一把对局结束之后我们获得一个trajectory (s_1,a_1,r_1,...,s_n,a_n,r_n),我们就可以计算 Q_{\pi}(s_t,a_t)\approx u_t=\sum_{i=t}^{n}\gamma^{i-t}r_i,这样一个未知量就被解决了,这种方法也是蒙特卡罗算法。

2.3 估计状态函数

最后一步就是近似 V_{\pi}(s_t),这里我们使用神经网络 v(s;w) 来近似状态价值函数 V_{\pi}(s),即 V_{\pi}(s)\approx v(s;w)

3. 算法

我们的算法中出现了两个神经网络,于是我们需要分别更新两个网络的参数

3.1 策略网络

第一个网络近似的是策略函数 \pi(a|s)  状态价值函数 \frac{\partial \,V_{\pi}(s_t,\theta)}{\partial \,\theta} 的梯度用 \frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}(u_t- v(s;w)) 近似。令 u_t- v(s;w)=-\delta_t

我们需要价值函数变大,所以我们使用梯度上升来更新策略网络\theta\leftarrow \theta-\beta\,\delta_t\frac{\partial \,\ln{\pi}(a_t|s_t;\theta)}{\partial \,\theta}

3.2 价值网络

第二个网络就是我们引入近似 V_{\pi}(s) 的神经网络 v(s;w) 

 由于 V_{\pi}(s_t)=E[U_t|s_t]\approx u_t 我们要使 v(s;w)\rightarrow V_{\pi}(s),只需要 v(s;w)\rightarrow u_t,也就是减小

\delta_t=v(s;w)-u_t,于是我们定义loss函数 \frac{\delta^2}{2} 并做梯度下降 w\leftarrow w-\alpha\delta_t\,\frac{\partial \,v(s_t;w)}{\partial \,w}

 

 

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值