[强化学习二]强化学习的基本概念

笔记参考链接https://nndl.github.io/的14章内容

4 强化学习

4.1 强化学习问题
4.1.1 典型例子
  • K臂赌博机问题
  • 悬崖行走问题
4.1.2 强化学习的定义

在强化学习中,有两个可以交互的对象:智能体环境

(1)智能体可以感知外界环境的状态和反馈的奖励,并进行学习和决策。智能体的决策功能是根据外界环境的状态来做出不同的动作,而学习功能是根据外界环境的奖励来调整策略。

(2)环境是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励。

强化学习的基本要素包括:

(1)状态 s s s是对环境的描述,可以是离散的或连续的,其状态空间为 S S S

(2)动作 a a a是对智能体行为的描述,可以是离散的或连续的,其动作空间为 A A A

(3)策略 π ( a ∣ s ) \pi(a|s) π(as)是智能体根据环境状态 s s s来决定下一步动作 a a a的函数

(4)状态转移概率 p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a)是在智能体根据当前状态 s s s做出一个动作 a a a之后,环境在下一个时刻转变为状态 s ′ s' s的概率

(5)即时奖励 r ( s , a , s ′ ) r(s,a,s') r(s,a,s)是一个标量函数,即智能体根据当前的状态 s s s做出动作 a a a之后,环境会反馈给智能体一个奖励,这个奖励也经常和下一个时刻的状态 s s s

策略

智能体的策略就是智能体如何根据环境状态 s s s来决定下一步的动作 a a a,通常可以分为确定性策略随机性策略

  • 确定性策略是从状态空间到动作空间的映射函数 π : S → A \pi:S \rightarrow A π:SA
  • 随机性策略表示在给定环境状态时,智能体选择某个动作的概率分布.

π ( a ∣ s ) = p ( a ∣ s ) ∑ a ∈ A π ( a ∣ s ) = 1 \pi(a|s)=p(a|s) \\ \sum_{a\in A}\pi(a|s)=1 π(as)=p(as)aAπ(as)=1

通常情况下,强化学习一般试用随机性策略。随机性策略可以有很多优点:

  • 在学习时可以通过引入一定随机性更好的探索环境
  • 随机性策略的动作具有多样性,这一点在多个智能体博弈时也非常重要。采用确定性策略的之恩那个提总是对同样的环境做出相同的动作,会导致它的策略很容易被对手预测.
4.1.3 马尔可夫决策过程

为简单起见,我们将智能体与环境的交互看作离散的时间序列。智能体从感知到的初始环境 s 0 s_0 s0开始,然后决定做一个相应的动作 a 0 a_0 a0,环境相应地发生改变到新的状态 s 1 s_1 s1,并反馈给智能体一个即时奖励 r 1 r_1 r1,然后智能体又根据状态 s 1 s_1 s1做一个动作 a 1 a_1 a1,环境相应改变为 s 2 s_2 s2,并反馈奖励 r 2 r_2 r2,这样的交互可以一直进行下去。
s 0 , a 0 , s 1 , r 1 , a 1 , s 2 , r 2 . . . s t − 1 , r t − 1 , a t − 1 , s t , r t . . . , s_0,a_0,s_1,r_1,a_1,s_2,r_2...s_{t-1},r_{t-1},a_{t-1},s_t,r_t..., s0,a0,s1,r1,a1,s2,r2...st1,rt1,at1,st,rt...,
其中 r t = r ( s t − 1 , a t − 1 , s t ) r_t=r(s_{t-1},a_{t-1},s_t) rt=r(st1,at1,st)是第 t t t时刻的即时奖励。

智能体与环境的交互
动作a(t)
状态s(t)
奖励r(t+1)
环境
智能体

智能体与环境的交互过程可以看作一个马尔可夫决策过程,Markov Decision Process,MDP

马尔可夫过程是一组具有马尔可夫性质的随机变量序列 s 0 , s 1 , . . . s t ∈ S s_0,s_1,...s_t \in S s0,s1,...stS,其中下一个时刻的状态 s t + 1 s_{t+1} st+1只取决于当前的状态 s t s_t st
p ( s t + 1 ∣ s t , . . . s 0 ) = p ( s t + 1 ∣ s t ) p(s_{t+1}|s_t,...s_0)=p(s_{t+1}|s_t) p(st+1st,...s0)=p(st+1st)
其中 p ( s t + 1 ∣ s t ) p(s_{t+1}|s_t) p(st+1st)称为状态转移概率 ∑ p ( s t + 1 ∣ s t ) = 1 , s t + 1 ∈ S \sum_{}p(s_{t+1}|s_t)=1,s_{t+1}\in S p(st+1st)=1,st+1S,也就是前文的 A A A矩阵。

马尔可夫决策过程在马尔可夫过程加入一个额外的变量:动作 a a a,下一个时刻的状态 s t + 1 s_{t+1} st+1不但和当前时刻的状态 s t s_t st相关,而且和动作 a t a_t at相关,
p ( s t + 1 ∣ s t , a t . . . s 0 , a 0 ) = p ( s t + 1 ∣ s t , a t ) p(s_{t+1}|s_t,a_t...s_0,a_0)=p(s_{t+1}|s_t,a_t) p(st+1st,at...s0,a0)=p(st+1st,at)
其中 p ( s t + 1 ∣ s t , a t ) p(s_{t+1}|s_t,a_t) p(st+1st,at)称为状态转移概率。

在这里插入图片描述

直观的理解,下一个时刻的状态不仅由上一个时刻的状态有关,还和上一个时刻产生的动作有关。

给定策略 π ( a ∣ s ) \pi(a|s) π(as),马尔可夫决策过程的一个轨迹(Trajectory)
τ = s 0 , a 0 , s 1 , r 1 , a 1 , . . . s T − 1 , a T − 1 , s T , r T \tau=s_0,a_0,s_1,r_1,a_1,...s_{T-1},a_{T-1},s_{T},r_{T} τ=s0,a0,s1,r1,a1,...sT1,aT1,sT,rT
的概率为:

如果将第一个状态拿出来,那么依次都是动作新状态奖励…依次到最后一个是动作最终状态奖励

如果再写出来一项,第一个为起始的状态 s 0 s_0 s0,然后是在状态 s 1 s_1 s1下选择动作 a 1 a_1 a1这个策略的概率 π ( a 1 ∣ s 1 ) \pi(a_1|s_1) π(a1s1),然后乘以在状态 s 1 s_1 s1和采取动作 a 1 a_1 a1的情况下,结果到达状态 s 2 s_2 s2的条件概率 p ( s 2 ∣ s 1 , a 1 ) p(s_{2}|s_1,a_1) p(s2s1,a1)

p ( τ ) = p ( s 0 , a 0 , s 1 , a 1 , . . . ) = p ( s 0 ) ∏ t = 0 T − 1 π ( a t ∣ s t ) p ( s t + 1 ∣ s t , a t ) = p ( s 0 ) π ( a 1 ∣ s 1 ) p ( s 2 ∣ s 1 , a 1 ) ∏ t = 1 T − 1 π ( a t ∣ s t ) p ( s t + 1 ∣ s t , a t ) \begin{aligned} p(\tau)&=p(s_0,a_0,s_1,a_1,...) \\ &=p(s_0)\prod_{t=0}^{T-1}\pi(a_t|s_t)p(s_{t+1}|s_t,a_t) \\ &=p(s_0)\pi(a_1|s_1)p(s_{2}|s_1,a_1)\prod_{t=1}^{T-1}\pi(a_t|s_t)p(s_{t+1}|s_t,a_t) \end{aligned} p(τ)=p(s0,a0,s1,a1,...)=p(s0)t=0T1π(atst)p(st+1st,at)=p(s0)π(a1s1)p(s2s1,a1)t=1T1π(atst)p(st+1st,at)

4.1.4 强化学习的目标函数
4.1.4.1 总回报

给定策略 π ( a ∣ s ) \pi(a|s) π(as),智能体和环境一次交互过程的轨迹 τ \tau τ所收到的累计奖励为总回报(Return)
G ( τ ) = ∑ t = 0 T − 1 r t + 1 = ∑ t = 0 T − 1 r ( s t , a t , s t + 1 ) \begin{aligned} G(\tau)&=\sum_{t=0}^{T-1}r_{t+1} \\ &=\sum_{t=0}^{T-1}r(s_t,a_t,s_{t+1}) \end{aligned} G(τ)=t=0T1rt+1=t=0T1r(st,at,st+1)
假设环境中有一个或多个特殊的终止状态,当到达终止状态时,一个智能体和环境的交互过程就结束了。这一轮交互的过程为一个Episode(回合) 或 trial,一般的强化学习都属于这种回合式任务

如果环境中没有终止状态,即 T = ∞ T= \infty T=,称为持续式任务,其总汇报也可能跟是无穷大,为了解决这个问题,我们可以引入一个折扣率来降低远期汇报的权重,折扣汇报定义为:
G ( τ ) = ∑ t = 0 T − 1 γ t r t + 1 G(\tau)=\sum_{t=0}^{T-1}\gamma^{t}r_{t+1} G(τ)=t=0T1γtrt+1
其中, γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ[0,1]是折扣率,当 γ \gamma γ接近 0 0 0时候,智能体更在意短期回报,而当 γ \gamma γ接近于 1 1 1时候,长期汇报变得更重要。

4.1.4.2 目标函数

因为策略和状态转移都有一定的随机性,所以每次实验得到的轨迹是一个随机序列,其收获的总汇报也不一样。强化学习的目标是学习到一个策略 π θ ( a ∣ s ) \pi_\theta(a|s) πθ(as)来最大化期望回报(Expected Return),即希望智能体执行一系列的动作来获得尽可能的平均汇报。

强化学习的目标函数为:
J ( θ ) = E τ ∼ p θ ( τ ) [ G ( τ ) ] = E τ ∼ p θ ( τ ) ∑ t = 0 T − 1 γ t r t + 1 J(\theta)=E_{\tau\sim p_{\theta}(\tau)}[G(\tau)]=E_{\tau\sim p_{\theta}(\tau)}\sum_{t=0}^{T-1}\gamma^{t}r_{t+1} J(θ)=Eτpθ(τ)[G(τ)]=Eτpθ(τ)t=0T1γtrt+1
其中 θ \theta θ为策略函数的参数。

4.1.5 值函数

为了评估策略 π \pi π的期望回报,我们定义两个值函数:状态值函数状态-动作值函数

4.1.5.1 状态值函数

策略 π \pi π的期望回报可以分解为:

相当于全概率公式,将状态 s s s的情况拿出来算期望,然后再把所有 s s s情况的期望加在一起,结果和原来一样

E τ ∼ p ( τ ) [ G ( τ ) ] = E τ ∼ p ( τ ) ∑ t = 0 T − 1 γ t r t + 1 = E s ∼ p ( s 0 ) [ E τ ∼ p ( τ ) [ ∑ t = 0 T − 1 γ t r t + 1 ∣ τ s 0 = s ] ] = E s ∼ p ( s 0 ) [ V π ( s ) ] \begin{aligned} E_{\tau\sim p_(\tau)}[G(\tau)]&=E_{\tau\sim p_(\tau)}\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}\\ &=E_{s\sim p(s_0)}[E_{\tau\sim p_(\tau)}[\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}|\tau_{s_0}=s]]\\ &=E_{s\sim p(s_0)}[V^{\pi}(s)] \end{aligned} Eτp(τ)[G(τ)]=Eτp(τ)t=0T1γtrt+1=Esp(s0)[Eτp(τ)[t=0T1γtrt+1τs0=s]]=Esp(s0)[Vπ(s)]

其中 V π ( s ) V^{\pi}(s) Vπ(s)称为状态值函数,表示从状态 s s s开始,执行策略 π \pi π后得到的期望总回报
V π ( s ) = E τ ∼ p ( τ ) [ ∑ t = 0 T − 1 γ t r t + 1 ∣ τ s 0 = s ] V^{\pi}(s)=E_{\tau\sim p_(\tau)}[\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}|\tau_{s_0}=s] Vπ(s)=Eτp(τ)[t=0T1γtrt+1τs0=s]

其中, τ s 0 \tau_{s_0} τs0表示轨迹 τ \tau τ的起始状态。

为了方便起见,我们用 τ 0 : T \tau_{0:T} τ0:T表示轨迹 s 0 , a 0 , s 1 , a 1 , . . . s T s_0,a_0,s_1,a_1,...s_T s0,a0,s1,a1,...sT,用 τ 1 : T \tau_{1:T} τ1:T表示轨迹 s 1 , a 1 , . . . s T s_1,a_1,...s_T s1,a1,...sT,因此有
τ 0 : T = s 0 , a 0 , τ 1 : T \tau_{0:T}=s_0,a_0,\tau_{1:T} τ0:T=s0,a0,τ1:T
因此,

下一个时刻的轨迹为从某个初始的状态出发,执行动作后的期望(概率为策略 π \pi π),乘以在初始状态和动作情况下转移到新状态的期望(概率为 p p p),最后乘以新轨迹的概率 p p p

E τ 0 : T ∼ p ( τ ) = E a ∼ π ( a ∣ s ) E s ′ ∼ p ( s ′ ∣ s , a ) E τ 1 : T ∼ p ( τ ) E_{\tau_{0:T} \sim p(\tau)}=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}E_{\tau_{1:T}\sim p(\tau)} Eτ0:Tp(τ)=Eaπ(as)Esp(ss,a)Eτ1:Tp(τ)

根据马尔可夫性质, V π ( s ) V^{\pi}(s) Vπ(s)可以展开得到:
V π ( s ) = E τ 0 : T ∼ p ( τ ) [ r 1 + γ ∑ i = 1 T − 1 γ t − 1 ∣ τ s 0 = s ] = E a ∼ π ( a ∣ s ) E s ′ ∼ p ( s ′ ∣ s , a ) E τ 1 : T ∼ p ( τ ) [ r ( s , a , s ′ ) + γ ∑ i = 1 T − 1 γ t − 1 ∣ τ s 0 = s ′ ] = E a ∼ π ( a ∣ s ) E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ E τ 1 : T ∼ p ( τ ) [ ∑ i = 1 T − 1 γ t − 1 ∣ τ s 0 = s ′ ] ] = E a ∼ π ( a ∣ s ) E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ V π ( s ’ ) ] = E a ∼ π ( a ∣ s ) Q π ( s , a ) \begin{aligned} V^{\pi}(s)&=E_{\tau_{0:T} \sim p(\tau)}[r_1+\gamma\sum_{i=1}^{T-1}\gamma^{t-1}|\tau_{s_0}=s] \\ &=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}E_{\tau_{1:T}\sim p(\tau)}[r(s,a,s')+\gamma\sum_{i=1}^{T-1}\gamma^{t-1}|\tau_{s_0}=s'] \\ &=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma E_{\tau_{1:T}\sim p(\tau)}[\sum_{i=1}^{T-1}\gamma^{t-1}|\tau_{s_0}=s']] \\ &=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s’)] \\ &=E_{a\sim \pi(a|s)}Q^{\pi}(s,a) \end{aligned} Vπ(s)=Eτ0:Tp(τ)[r1+γi=1T1γt1τs0=s]=Eaπ(as)Esp(ss,a)Eτ1:Tp(τ)[r(s,a,s)+γi=1T1γt1τs0=s]=Eaπ(as)Esp(ss,a)[r(s,a,s)+γEτ1:Tp(τ)[i=1T1γt1τs0=s]]=Eaπ(as)Esp(ss,a)[r(s,a,s)+γVπ(s)]=Eaπ(as)Qπ(s,a)

  • 贝尔曼方程 V π ( s ) = E a ∼ π ( a ∣ s ) E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ V π ( s ’ ) ] V^{\pi}(s)=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s’)] Vπ(s)=Eaπ(as)Esp(ss,a)[r(s,a,s)+γVπ(s)]

表示当前状态的值函数可以通过下个状态的值函数来计算。

如果给定了策略 π ( a ∣ s ) \pi(a|s) π(as),状态转移概率 p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a)和奖励 r ( s , a , s ′ ) r(s,a,s') r(s,a,s),我们就可以通过迭代的方式来计算 V π ( s ) V^{\pi}(s) Vπ(s),由于存在一定的折扣率,迭代一定步数后,每个状态的值函数就会越来越小,直到固定不变。

4.1.5.2 状态-动作值函数

公式中的第二个期望是指从初始状态为 s s s执行动作 a a a,然后执行策略 π \pi π得到的总回报,称为状态-动作值函数

表示当前状态的值函数可以通过下个状态的值函数来计算。

如果给定了策略 π ( a ∣ s ) \pi(a|s) π(as),状态转移概率 p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a)和奖励 r ( s , a , s ′ ) r(s,a,s') r(s,a,s),我们就可以通过迭代的方式来计算 V π ( s ) V^{\pi}(s) Vπ(s),由于存在一定的折扣率,迭代一定步数后,每个状态的值函数就会越来越小,直到固定不变。

公式中的第二个期望是指从初始状态为 s s s执行动作 a a a,然后执行策略 π \pi π得到的总回报,称为状态-动作值函数,也称为Q函数
Q π ( s , a ) = E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ V π ( s ′ ) ] Q^{\pi}(s,a)=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s')] Qπ(s,a)=Esp(ss,a)[r(s,a,s)+γVπ(s)]
状态值函数 V π ( s ) V^{\pi}(s) Vπ(s) Q Q Q函数 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)关于动作 a a a的期望,即:
V π ( s ) = E a ∼ π ( a ∣ s ) Q π ( s , a ) V^{\pi}(s)=E_{a\sim \pi(a|s)}Q^{\pi}(s,a) Vπ(s)=Eaπ(as)Qπ(s,a)
同理来推导 Q Q Q函数的迭代公式:
Q π ( s , a ) = E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ V π ( s ′ ) ] = E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ E a ′ ∼ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] \begin{aligned} Q^{\pi}(s,a)&=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s')] \\ &=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma E_{a'\sim \pi(a'|s')}Q^{\pi}(s',a')] \\ \end{aligned} Qπ(s,a)=Esp(ss,a)[r(s,a,s)+γVπ(s)]=Esp(ss,a)[r(s,a,s)+γEaπ(as)Qπ(s,a)]

  • Q值的贝尔曼方程 Q π ( s , a ) = E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ E a ′ ∼ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^{\pi}(s,a)=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma E_{a'\sim \pi(a'|s')}Q^{\pi}(s',a')] Qπ(s,a)=Esp(ss,a)[r(s,a,s)+γEaπ(as)Qπ(s,a)]
4.1.5.3 值函数的作用

值函数可以看作对策略 π \pi π的评估,因此我们就可以根据值函数来优化策略。假设在状态 s s s,有一个动作 a ∗ a^* a,使得 Q π ( s , a ∗ ) > v π ( s ) Q^{\pi}(s,a^*)>v^{\pi}(s) Qπ(s,a)>vπ(s),即执行动作 a ∗ a^* a的回报,大于期望值,比当前的策略 π ( a ∣ s ) \pi(a|s) π(as)要高,我们就可以调整参数,使得策略中动作 a ∗ a^* a的概率 p ( a ∗ ∣ s ) p(a^*|s) p(as)增加。

状态值函数 V π ( s ) V^{\pi}(s) Vπ(s)状态-动作值函数 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)
含义从状态 s s s开始,执行策略 π \pi π后得到的期望总回报从初始状态为 s s s执行动作 a a a,然后执行策略 π \pi π得到的总回报
计算公式 V π ( s ) = E τ ∼ p ( τ ) [ ∑ t = 0 T − 1 γ t r t + 1 ∣ τ s 0 = s ] V^{\pi}(s)=E_{\tau\sim p_(\tau)}[\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}\mid\tau_{s_0}=s] Vπ(s)=Eτp(τ)[t=0T1γtrt+1τs0=s] Q π ( s , a ) = E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ V π ( s ′ ) ] Q^{\pi}(s,a)=E_{s'\sim p(s'\mid s,a)}[r(s,a,s')+\gamma V^{\pi}(s')] Qπ(s,a)=Esp(ss,a)[r(s,a,s)+γVπ(s)]
贝尔曼 V π ( s ) = E a ∼ π ( a ∣ s ) E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ V π ( s ’ ) ] V^{\pi}(s)=E_{a\sim \pi(a \mid s)}E_{s'\sim p(s'\mid s,a)}[r(s,a,s')+\gamma V^{\pi}(s’)] Vπ(s)=Eaπ(as)Esp(ss,a)[r(s,a,s)+γVπ(s)] Q π ( s , a ) = E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ E a ′ ∼ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^{\pi}(s,a)=E_{s'\sim p(s'\mid s,a)}[r(s,a,s')+\gamma E_{a'\sim \pi(a'\mid s')}Q^{\pi}(s',a')] Qπ(s,a)=Esp(ss,a)[r(s,a,s)+γEaπ(as)Qπ(s,a)]
关系状态值函数 V π ( s ) V^{\pi}(s) Vπ(s) Q Q Q函数 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)关于动作 a a a的期望 V π ( s ) = E a ∼ π ( a ∣ s ) Q π ( s , a ) V^{\pi}(s)=E_{a\sim \pi(a\mid s)}Q^{\pi}(s,a) Vπ(s)=Eaπ(as)Qπ(s,a)

在这里插入图片描述

4.1.6 深度强化学习

在强化学习中,一般需要建模策略 π ( a ∣ s ) \pi(a|s) π(as)和值函数 V π ( s ) , Q π ( s ) V^\pi(s),Q^\pi(s) Vπ(s),Qπ(s)。早期的强化学习算法主要关注状态和动作都是离散且有限的问题。

在强化学习中,一般需要建模策略 π ( a ∣ s ) \pi(a|s) π(as)和值函数 V π ( s ) , Q π ( s ) V^\pi(s),Q^\pi(s) Vπ(s),Qπ(s)。早期的强化学习算法主要关注状态和动作都是离散且有限的问题。但在很多实际问题中,有些任务的状态和动作的数量非常多,如在自动驾驶中,智能体感知到的环境状态是各种传感器数据,一般都是连续的,动作是操作方向盘的方向和速度,也是连续的。

为了有效地解决这些问题,我们可以设计一个更强的策略函数,如深度神经网络,使得智能体可以应对复杂的环境,学习更优的策略,并由更好的泛化能力。

深度强化学习是将强化学习和深度学习结合在一起,其中:

  • 强化学习:定义问题和优化目标
  • 深度学习:解决策略和值函数的建模,并用误差反向传播来优化目标函数
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值