【强化学习理论基础-通用】(39)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) - 目标函数之统一形式、梯度期望形式推导求解

若需观看机器人系列相关博客,请劳驾至:【足式机器人无死角系列之-【强化学习基础-通用】、【仿真及训练环境】、【强化学习】:isaac-gym 与 isaac-lab 从零开始

郑重声明:该系列博客为本人 ( W e n h a i Z h u ) 独家私有 , 禁止转载与抄袭 , 首次举报有谢 , 若有需请私信授权! \color{red}郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权! 郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!

回顾:上一篇博客中首先对策略梯度(Policy Gradient)的整体思路与逻辑进行了介绍,接着提到通常有两种常见的方式衡量策略 π 的优劣,分别为 Average state value 与 Average reward。不过还有一些细节没有分析,该篇博客会进行一定补充。

本系列博客链接为: {\color{blue}本系列博客链接为:} 本系列博客链接为:【强化学习理论基础-通用】(01)从零开始白话给你讲,简单推导公式,深刻理解,一眼万年!:https://blog.csdn.net/weixin_43013761/article/details/143168169

本博客编写于: 20250217 ,台式机为 u b u n t u 20.04 , 3090 G e F o r c e R T X 显存 24 G { \color{purple} 本博客编写于:20250217,台式机为 ubuntu 20.04,3090 GeForce RTX 显存24G} 本博客编写于:20250217,台式机为ubuntu20.043090GeForceRTX显存24G:与你现在的代码,或者环境等存在一定差异也在情理之中,故切勿认为该系列博客绝对正确,且百密必有一疏,若发现错误处,恳请各位读者直接指出,本人会尽快进行整改,尽量使得后面的读者少踩坑,评论部分我会进行记录与感谢,只有这样,该系列博客才能成为精品,这里先拜谢各位朋友了。

文末正下方中心提供了本人 联系方式, 点击本人照片即可显示 W X → 官方认证,请备注 强化学习 。 {\color{blue}{文末正下方中心}提供了本人 \color{red} 联系方式,\color{blue}点击本人照片即可显示WX→官方认证,请备注\color{red} 强化学习}。 文末正下方中心提供了本人联系方式,点击本人照片即可显示WX官方认证,请备注强化学习

一、前言

通过上一篇博客介绍知道,如果要优化一个动作决策策略 π \pi π 的参数 θ \theta θ,如何取构建目标函数。总的两说介绍了两种方式如下:
在这里插入图片描述上述三种表达式本质上式等价的,不过上一篇博客并没有给出百分百的详细推导,因为暂时来说,那些特别底层的数学知识推导并不是目前我关注的重点对象,若后续遇到某些问题,需要深刻理解相关知识点,本人会对其进行详细分析,并补充相关博客。

数学底层公式推导博客已经完成,若想知来龙去脉请参考:【强化学习理论基础-通用】(44)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) 无死角推导,递归详细展开,符号注释,mode-base形式

对于梯度下降或者上升函数来说,定义好目标函数之后,最重要的就是对梯度的求解。因为只有求得梯度之后才能对策略 π \pi π 的参数 θ \theta θ 进行优化。但是求解目标函数梯度可以说是策略梯度(Policy Gradient)中最复杂的一个环节。其复杂的情况主要来自细分情况太多。

首先来说根据状态概率分布是否与 π \pi π 有关,需要区分 d π d_{\pi} dπ d 0 d_0 d0 两种子况来考虑;另外与折扣因子具体取值也有关,比如说折扣因子 γ ∈ [ 0 , 1 ] \gamma \in[0,1] γ[0,1](distinguish) 与 γ = 1 \gamma=1 γ=1 是,其梯度不一样;且共有两种指标(Average state value 与 Average reward),也就是 v ˉ π \bar v_{\pi} vˉπ r ˉ π \bar r_{\pi} rˉπ 去构建目标函数;总的来说,因为这些子况部分可进行两两组合,使得最终目标函数的梯度求解复杂多样。

二、mode-base

上面提到,关于 v ˉ π \bar v_{\pi} vˉπ r ˉ π \bar r_{\pi} rˉπ 这两个衡量指标(目标函数)梯度求解情况复杂多样,不过总体来说还是大同小异,所以也能给出一个相对统一的形式,不过这种一种简要的写法,很多细节就没有具体细分。若是对具体细节感兴趣的朋友,想知来龙去脉请参考:【强化学习理论基础-通用】(44)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) 无死角推导,递归详细展开,符号注释,mode-base形式,先来看统一形式: ∇ θ J ( θ ) = ∑ s ∈ S η ( s ) [ ∑ a ∈ A [ ∇ θ π ( a ∣ s , θ ) ] q π ( s , a ) ] (01) \color{red} \tag{01} \nabla_{\theta} J(\theta)=\sum_{s \in \mathcal{S}} \eta(s) [\sum_{a \in \mathcal{A}} [\nabla_{\theta} \pi(a \mid s, \theta)] q_{\pi}(s, a)] θJ(θ)=sSη(s)[aA[θπ(as,θ)]qπ(s,a)](01)上式中 J ( θ ) J(\theta) J(θ) 为关于策略参数 θ \theta θ 的目标函数,可以为 v ˉ ( v ˉ π , v ˉ π 0 ) \bar v(\bar v_{\pi},\bar v_{\pi}^0) vˉ(vˉπ,vˉπ0) 或者 r ˉ ( r ˉ π , r ˉ π 0 ) \bar r(\bar r_{\pi},\bar r_{\pi}^0) rˉ(rˉπ,rˉπ0);等式的右边首先进行关于随机变量 S S S 的累加,其中 η ( s ) \eta(s) η(s) 为状态 s s s 的概率(或者说概率分布),其可以与策略 π \pi π 相关或无关,如上一篇博客提到的 d 0 ( s ) d_0(s) d0(s) d π ( s ) d_{\pi}(s) dπ(s) 处的累加其实就是求解关于随机变量 S S S 的期望;接着还有关于随机变量 A A A 的累加,不过要注意其是对梯度的累加,本质来说就是求随机变量 A A A 关于梯度的期望;其中 ∇ θ \nabla_{\theta} θ 表示求解相对于策略 π \pi π 参数 θ \theta θ 的梯度。

mode-base: 首先需要明确的一点是,上式需要预先知道或者预定好随机变量的 S 与 A 的概率分布,所以其本质上来说类似于 mode-base 的实现。

值得注意的是,上式中等号 ‘=’ 是广义的,因为随着目标函数 J ( θ ) J(\theta) J(θ) 或者 η ( s ) \eta(s) η(s) 以及 γ \gamma γ 的选取不同,上式中的等号 ‘=’ 将不在严格成立。其具体来说可以有 = , ≈ , ∝ =,\approx,\propto =,, 三种符号的函数以。首先基本 = = = 与常规一样,其表示左式等与左式严格意义上的相等; ≈ \approx 表示约等于,也就是说左右两式非严格意义上相等,存在少量偏差; ∝ \propto 则表示左右两式相差一个缩放因子,即左右两式成比;为说明这三个符号在具体情况下的含义,来看如下几个目标函数梯度示例: ∇ θ r ˉ π ≃ ∑ s d π ( s ) [ ∑ a [ ∇ θ π ( a ∣ s , θ ) ] q π ( s , a ) ] (02) \color{green} \tag{02} \nabla_{\theta} \bar{r}_{\pi} \simeq \sum_{s} d_{\pi}(s) [\sum_{a} [\nabla_{\theta} \pi(a \mid s, \theta)] q_{\pi}(s, a)] θrˉπsdπ(s)[a[θπ(as,θ)]qπ(s,a)](02)首先来说,上式中 ≈ \approx 表示约等于,也就是说左右两式非严格意义上相等,存在少量偏差,其实本质上来说,就是推导过程中为简化梯度求解,省略高阶梯度。这是在工程应用推导或实践中常使用到的技巧。至于上式具体是如何推导出来,这里暂时略过,有兴趣的朋友可以去看一下赵世钰老师的书籍。

上式中的符号就不再重复介绍,若看过上一篇博客应该一眼就能分辨出来。上式给出的是关于 r ˉ π \bar{r}_{\pi} rˉπ 相对于 θ \theta θ 梯度,由上一篇博客中(15)式: r ˉ π = ( 1 − γ ) v ˉ π (03) \color{green} \tag{03} \bar{r}_{\pi}=(1-\gamma) \bar{v}_{\pi} rˉπ=(1γ)vˉπ(03) 有提到, r ˉ π \bar{r}_{\pi} rˉπ v ˉ π \bar{v}_{\pi} vˉπ 本质上来说是等价等,若是优化迭代过程中,求得参数 θ \theta θ 使得 r ˉ π \bar{r}_{\pi} rˉπ 最优,那么该参数 θ \theta θ 同时也满足 v ˉ π \bar{v}_{\pi} vˉπ 最优,由梯度普通乘法运算易得: ∇ θ v ˉ π = 1 1 − γ ∇ θ r ˉ π (04) \color{green} \tag{04} \nabla_{\theta} \bar{v}_{\pi}=\frac{1}{1-\gamma} \nabla_{\theta} \bar{r}_{\pi} θvˉπ=1γ1θrˉπ(04)上式与(02)式进行对比,再引入等比符号 ∝ \propto 易得: ∇ θ v ˉ π ∝ ∑ s [ d π ( s ) ∑ a [ ∇ θ π ( a ∣ s , θ ) ] q π ( s , a ) ] (05) \color{green} \tag{05} \nabla_{\theta} \bar{v}_{\pi} \propto\sum_{s} [d_{\pi}(s) \sum_{a} [\nabla_{\theta} \pi(a \mid s, \theta)] q_{\pi}(s, a)] θvˉπs[dπ(s)a[θπ(as,θ)]qπ(s,a)](05) 通过上面的分析,已经知道 ≈ , ∝ \approx,\propto , 这两个符号具体来源与所属情况。还剩下一个严格意义上的等于符号 ‘=’,其成立的情况通常为状态 S S S 的概率分布与策略 π \pi π 参数 θ \theta θ 无关时: ∇ θ v ˉ π 0 = ∑ s ∈ S ρ π ( s ) [ ∑ a ∈ A [ ∇ θ π ( a ∣ s , θ ) ] q π ( s , a ) ] (06) \color{green} \tag{06} \nabla_{\theta} \bar{v}_{\pi}^{0}=\sum_{s \in \mathcal{S}} \rho_{\pi}(s)[ \sum_{a \in \mathcal{A}} [\nabla_{\theta} \pi(a \mid s, \theta)] q_{\pi}(s, a)] θvˉπ0=sSρπ(s)[aA[θπ(as,θ)]qπ(s,a)](06)需要注意的是,求解梯度之后状态 S S S 的概率分布 ρ π ( s ) \rho_{\pi}(s) ρπ(s) 与策略 π \pi π 参数 θ \theta θ 是相关的。直白的说,就是奖励目标函数 v ˉ π 0 \bar{v}_{\pi}^{0} vˉπ0 中的关于状态 S S S 的概率分布为 d 0 ( s ) d_0(s) d0(s) 其表示与策略 π \pi π 参数 θ \theta θ 是无关的。但是对其求解梯度之后得到 ∇ θ v ˉ π 0 \nabla_{\theta} \bar{v}_{\pi}^{0} θvˉπ0,其对应的概率分布形式上发生了变化,为 ρ π ( s ) \rho_{\pi}(s) ρπ(s),其与参数 θ \theta θ 相关。

三、mode-free

前面(01)虽然为统一形式,相对来说也是一个比较具体的形式,本质上来说其属于 mode-base,即需要知道随机变量 状态 S S S 以及动作 A A A 对应的概率分布 η ( S ) \eta(S) η(S) ∇ θ π ( A ∣ s , θ ) \nabla_{\theta} \pi(A \mid s, \theta) θπ(As,θ) 才能求解,且前者 η ( S ) \eta(S) η(S) 通常来说属于未知 ,后者 ∇ θ π ( A ∣ s , θ ) \nabla_{\theta} \pi(A \mid s, \theta) θπ(As,θ) 因为 ∇ θ \nabla_{\theta} θ 的存在,其未必为概率分布,因为概率分布需要保证所有概率总和为 1,另外,故其不能直接转换成期望形式。总的来说,严格意义上期望形式梯度如下所示: ∇ θ J ( θ ) = E S ∼ η , A ∼ π ( S , θ ) [ ( ∇ θ ln ⁡ π ( A ∣ S , θ ) q π ( S , A ) ] (07) \color{red} \tag{07}\nabla_{\theta} J(\theta)=\mathbb{E}_{S \sim \eta, A \sim \pi(S, \theta)}\left[(\nabla_{\theta} {\color{blue}\ln} \pi(A \mid S, \theta) q_{\pi}(S, A)\right] θJ(θ)=ESη,Aπ(S,θ)[(θlnπ(AS,θ)qπ(S,A)](07)上式中 S ∼ η S \sim \eta Sη 表示状态随机变量 S S S 遵循概率分布 η \eta η A ∼ π ( S , θ ) A \sim \pi(S, \theta) Aπ(S,θ) 表示动作随机变量 A A A 遵循概率分布 π ( A ∣ S , θ ) \pi(A \mid S, \theta) π(AS,θ)。与(01)式对比的,唯一不好理解就是 ln ⁡ \ln ln 这个符号,这个先放一下。上式中还有一个问题就是,就是这种期望形式无法直接求解,而(01)式类似于 mode-base 的方式,需要预先知道或者预定好随机变量的 S S S A A A 的概率分布,才能去梯度进行求解。所以此处可以引入大数定律形式的随机梯度,即把(07)式转换成随机采样的形式即可: ∇ θ J ≈ [ ∇ θ ln ⁡ π ( a ∣ s , θ ) ] q π ( s , a ) (08) \color{red} \tag{08}\nabla_{\theta} J \approx [\nabla_{\theta} {\color{blue}\ln} \pi(a \mid s, \theta)] q_{\pi}(s, a) θJ[θlnπ(as,θ)]qπ(s,a)(08)上式的梯度最终会以 θ t + 1 = θ t + α ∇ θ J ( θ t ) \theta_{t+1}=\theta_{t}+\alpha \nabla_{\theta} J\left(\theta_{t}\right) θt+1=θt+αθJ(θt) 的形式完成对策略 π \pi π 参数 θ \theta θ 的更新,所以随着实际采样数量的增加,最终参数 θ ∗ \theta^* θ 的更新趋近于 θ ∗ ≈ θ 0 + E [ ∇ θ J ] = E [ ( ∇ θ ln ⁡ π ( A ∣ S , θ ) ) q π ( S , A ) ] (09) \color{green} \tag{09}\theta^* \approx \theta_0+\mathbb{E}[\nabla_{\theta} J ]=\mathbb{E}[(\nabla_{\theta} {\color{blue}\ln} \pi(A \mid S, \theta)) q_{\pi}(S, A)] θθ0+E[θJ]=E[(θlnπ(AS,θ))qπ(S,A)](09)这个地方细节就不在具体分析,因为前面梯度下降的一系列博客有具体分析,如:【强化学习理论基础-通用】(18)从零开始白话给你讲[数学原理]:随机梯度下降 SGD(Stochastic gradient descent) 数学推导。现在就来寻找(07)式与(01)式之间的关系,不过得从(08)式开始推导,现在假设已经建立好(08)式这个梯度形式,那么根据梯度公式 ∇ ln ⁡ x = 1 x \nabla \ln x=\frac{1}{x} lnx=x1,再结合链式法则,可知(08)式中 ∇ θ ln ⁡ π ( a ∣ s , θ ) = 1 π ( a ∣ s , θ ) ∗ ∇ π ( a ∣ s , θ ) = ∇ π ( a ∣ s , θ ) π ( a ∣ s , θ ) (10) \color{green} \tag{10}\nabla_{\theta}\ln \pi(a \mid s, \theta)=\frac{1}{\pi(a \mid s, \theta)}*\nabla\pi(a \mid s, \theta)=\frac{\nabla\pi(a \mid s, \theta)}{\pi(a \mid s, \theta)} θlnπ(as,θ)=π(as,θ)1π(as,θ)=π(as,θ)π(as,θ)(10)接着再把上式结论调换一下位置,可得: ∇ θ π ( a ∣ s , θ ) = π ( a ∣ s , θ ) [ ∇ θ ln ⁡ π ( a ∣ s , θ ) ] (11) \color{green} \tag{11}\nabla_{\theta} \pi(a \mid s, \theta)=\pi(a \mid s, \theta) [\nabla_{\theta} \ln \pi(a \mid s, \theta)] θπ(as,θ)=π(as,θ)[θlnπ(as,θ)](11)再进一步把上式带入到(01)式中,可得: ∇ θ J ( θ ) = ∑ s ∈ S η ( s ) [ ∑ a ∈ A π ( a ∣ s , θ ) [ ∇ θ ln ⁡ π ( a ∣ s , θ ) ] q π ( s , a ) ] (12) \color{green} \tag{12} \nabla_{\theta} J(\theta)=\sum_{s \in \mathcal{S}} \eta(s) [\sum_{a \in \mathcal{A}}\pi(a \mid s, \theta) [\nabla_{\theta} \ln \pi(a \mid s, \theta)] q_{\pi}(s, a)] θJ(θ)=sSη(s)[aAπ(as,θ)[θlnπ(as,θ)]qπ(s,a)](12)此时,就可以与(08)式联系到一起了,首先把上式中实际采样 s s s 写成随机变量 S S S 期望形式为( η ( s ) \eta(s) η(s) 为转态 s s s 实际采样对应的概率): ∇ θ J ( θ ) = E S ∼ d [ ∑ a π ( a ∣ S , θ ) [ ∇ θ ln ⁡ π ( a ∣ S , θ ) ] q π ( S , a ) ] (13) \color{green} \tag{13} \nabla_{\theta} J(\theta)=\mathbb{E}_{S \sim d}\left[\sum_{a} \pi(a \mid S, \theta) [\nabla_{\theta} \ln \pi(a \mid S, \theta)] q_{\pi}(S, a)\right] θJ(θ)=ESd[aπ(aS,θ)[θlnπ(aS,θ)]qπ(S,a)](13)认真观察上式,又因为 π ( a ∣ S , θ ) \pi(a \mid S, \theta) π(aS,θ) 其对应的就是随机变量 A A A 在条件 S , θ S, \theta S,θ 下实际采样的概率,故可对随机变量 A A A 求期望得: ∇ θ J ( θ ) = E S ∼ d , A ∼ π ( S , θ ) [ ∇ θ [ ln ⁡ π ( A ∣ S , θ ) ] q π ( S , A ) ] (14) \color{green} \tag{14}\nabla_{\theta} J(\theta)=\mathbb{E}_{{\color{blue}S \sim d, A \sim \pi(S,\theta)}}\left[\nabla_{\theta} [\ln \pi(A \mid S, \theta) ]q_{\pi}(S, A)\right] θJ(θ)=ESd,Aπ(S,θ)[θ[lnπ(AS,θ)]qπ(S,A)](14)这样就由(08)式出发,借用(01)式,进一步推导出(01)式,不过为书写简洁,会把上式中蓝色部分下标省略得: ∇ θ J ( θ ) = E [ ( ∇ θ ln ⁡ π ( A ∣ S , θ ) ) q π ( S , A ) ] (15) \color{red} \tag{15}\nabla_{\theta} J(\theta)={\mathbb{E}}\left[(\nabla_{\theta}{\color{blue} \ln} \pi(A \mid S, \theta)) q_{\pi}(S, A)\right] θJ(θ)=E[(θlnπ(AS,θ))qπ(S,A)](15)

四、额外提及

关于上式 ln ⁡ {\color{blue} \ln} ln 部分需要注意其定义域为 ( 0 , + ∞ ) (0,+\infty) (0,+),所以必须确保(注意策略 π \pi π 输出的结果是一个向量): π ( a ∣ s , θ ) > 0 (16) \color{green} \tag{16}\pi(a \mid s, \theta)>0 π(as,θ)>0(16)熟悉深度学习的朋友应该知道激活函数 softmax 可以很容易使得上式成立,直白的说其就是把一个范围 ( − ∞ , + ∞ ) (-\infty,+\infty) (,+) 向量映射至 (0,1),即归一化处理。这里给出一个简单的示例,假设向量: x = [ x 1 , … , x n ] T (17) \color{green} \tag{17}x=\left[x_{1}, \ldots, x_{n}\right]^{T} x=[x1,,xn]T(17)那么通过 softmax 映射之后,向量每个元素的计算结果为:
z i = e x i ∑ j = 1 n e x j (18) \color{green} \tag{18}z_{i}=\frac{e^{x_{i}}}{\sum_{j=1}^{n} e^{x_{j}}} zi=j=1nexjexi(18)其满足 z i ∈ ( 0 , 1 )  and  ∑ i = 1 n z i = 1 z_{i} \in(0,1) \text { and } \sum_{i=1}^{n} z_{i}=1 zi(0,1) and i=1nzi=1,总的来说策略 π \pi π 可以拆写成如下形式: π ( a ∣ s , θ ) = e h ( s , a , θ ) ∑ a ′ ∈ A e h ( s , a ′ , θ ) (19) \color{green} \tag{19}\pi(a \mid s, \theta)=\frac{e^{h(s, a, \theta)}}{\sum_{a^{\prime} \in \mathcal{A}} e^{h\left(s, a^{\prime}, \theta\right)}} π(as,θ)=aAeh(s,a,θ)eh(s,a,θ)(19)上式中的函数 h h h 是一个关于 θ \theta θ 的函数,比如说未添加 softmax 层的神经网络。当然也可以自行设计 feature function,比如前面提到的 linear function approximation,不过这样会比较麻烦,所以现在通常来说都是神经网络。

因为 π ( a ∣ s , θ ) > 0 \pi(a \mid s, \theta)>0 π(as,θ)>0,所以每个动作都有被执行的可能,故这是一个随机(stochastic)策略,固然其属于探索性策略。在后面博客中会介绍确定性(deterministic)策略,简称为 DPG,那么就可以省略 π ( a ∣ s , θ ) > 0 \pi(a \mid s, \theta)>0 π(as,θ)>0 这个条件了,这里就不在细说。

四、总结

该篇博客中,首先给出类似于 mode-base 形式策略梯度统一形式,不过并没有给出该梯度具体推导过程,不过再后续篇幅中本人会把该部分相关知识点补充完整,有兴趣的朋友也可以直接去看赵世钰老师的书籍,总的来说车略梯度如下所示:
∇ θ J ( θ ) = ∑ s ∈ S η ( s ) [ ∑ a ∈ A [ ∇ θ π ( a ∣ s , θ ) ] q π ( s , a ) ] (20) \color{green} \tag{20} \nabla_{\theta} J(\theta)=\sum_{s \in \mathcal{S}} \eta(s) [\sum_{a \in \mathcal{A}} [\nabla_{\theta} \pi(a \mid s, \theta)] q_{\pi}(s, a)] θJ(θ)=sSη(s)[aA[θπ(as,θ)]qπ(s,a)](20)又因为 ∇ θ π ( a ∣ s , θ ) = π ( a ∣ s , θ ) [ ∇ θ ln ⁡ π ( a ∣ s , θ ) ] (21) \color{green} \tag{21}\nabla_{\theta} \pi(a \mid s, \theta)=\pi(a \mid s, \theta) [\nabla_{\theta} \ln \pi(a \mid s, \theta)] θπ(as,θ)=π(as,θ)[θlnπ(as,θ)](21)可得: ∇ θ J ( θ ) = ∑ s ∈ S η ( s ) [ ∑ a ∈ A π ( a ∣ s , θ ) [ ∇ θ ln ⁡ π ( a ∣ s , θ ) ] q π ( s , a ) ] (22) \color{green} \tag{22} \nabla_{\theta} J(\theta)=\sum_{s \in \mathcal{S}} \eta(s) [\sum_{a \in \mathcal{A}}\pi(a \mid s, \theta) [\nabla_{\theta} \ln \pi(a \mid s, \theta)] q_{\pi}(s, a)] θJ(θ)=sSη(s)[aAπ(as,θ)[θlnπ(as,θ)]qπ(s,a)](22)上式为随机采样形式,很容易写成如下期望形式: ∇ θ J ( θ ) = E [ ( ∇ θ ln ⁡ π ( A ∣ S , θ ) ) q π ( S , A ) ] (23) \color{red} \tag{23}\nabla_{\theta} J(\theta)={\mathbb{E}}\left[(\nabla_{\theta}{\color{blue} \ln} \pi(A \mid S, \theta)) q_{\pi}(S, A)\right] θJ(θ)=E[(θlnπ(AS,θ))qπ(S,A)](23)到目标为止,已经知道如何构建策略 π \pi π 的衡量指标,且再该指标上构建出各种目标函数,接着该篇博客介绍了相关目标函数对应梯度如何求解,且给出期望形式梯度推导与具体求解过程。下面博客将介绍真正意义上的强化学习,也是 REINFORCE 的由来。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

江南才尽,年少无知!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值