笔记参考链接https://nndl.github.io/的14章内容
文章目录
4 强化学习
4.1 强化学习问题
4.1.1 典型例子
- K臂赌博机问题
- 悬崖行走问题
4.1.2 强化学习的定义
在强化学习中,有两个可以交互的对象:智能体和环境
(1)智能体
可以感知外界环境的状态
和反馈的奖励
,并进行学习和决策。智能体的决策
功能是根据外界环境的状态来做出不同的动作
,而学习
功能是根据外界环境的奖励来调整策略。
(2)环境
是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励。
强化学习的基本要素包括:
(1)状态
s
s
s是对环境的描述,可以是离散的或连续的,其状态空间为
S
S
S
(2)动作
a
a
a是对智能体行为的描述,可以是离散的或连续的,其动作空间为
A
A
A
(3)策略
π
(
a
∣
s
)
\pi(a|s)
π(a∣s)是智能体根据环境状态
s
s
s来决定下一步动作
a
a
a的函数
(4)状态转移概率
p
(
s
′
∣
s
,
a
)
p(s'|s,a)
p(s′∣s,a)是在智能体根据当前状态
s
s
s做出一个动作
a
a
a之后,环境在下一个时刻转变为状态
s
′
s'
s′的概率
(5)即时奖励
r
(
s
,
a
,
s
′
)
r(s,a,s')
r(s,a,s′)是一个标量函数,即智能体根据当前的状态
s
s
s做出动作
a
a
a之后,环境会反馈给智能体一个奖励,这个奖励也经常和下一个时刻的状态
s
s
s
策略
智能体的策略就是智能体如何根据环境状态
s
s
s来决定下一步的动作
a
a
a,通常可以分为确定性策略
和随机性策略
。
确定性策略
是从状态空间到动作空间的映射函数 π : S → A \pi:S \rightarrow A π:S→A。随机性策略
表示在给定环境状态时,智能体选择某个动作的概率分布.
π ( a ∣ s ) = p ( a ∣ s ) ∑ a ∈ A π ( a ∣ s ) = 1 \pi(a|s)=p(a|s) \\ \sum_{a\in A}\pi(a|s)=1 π(a∣s)=p(a∣s)a∈A∑π(a∣s)=1
通常情况下,强化学习一般试用随机性策略
。随机性策略可以有很多优点:
- 在学习时可以通过引入一定随机性更好的
探索
环境 - 随机性策略的动作具有多样性,这一点在多个智能体博弈时也非常重要。采用确定性策略的之恩那个提总是对同样的环境做出相同的动作,会导致它的策略很容易被对手预测.
4.1.3 马尔可夫决策过程
为简单起见,我们将智能体与环境的交互看作离散的时间序列。智能体从感知到的初始环境
s
0
s_0
s0开始,然后决定做一个相应的动作
a
0
a_0
a0,环境相应地发生改变到新的状态
s
1
s_1
s1,并反馈给智能体一个即时奖励
r
1
r_1
r1,然后智能体又根据状态
s
1
s_1
s1做一个动作
a
1
a_1
a1,环境相应改变为
s
2
s_2
s2,并反馈奖励
r
2
r_2
r2,这样的交互可以一直进行下去。
s
0
,
a
0
,
s
1
,
r
1
,
a
1
,
s
2
,
r
2
.
.
.
s
t
−
1
,
r
t
−
1
,
a
t
−
1
,
s
t
,
r
t
.
.
.
,
s_0,a_0,s_1,r_1,a_1,s_2,r_2...s_{t-1},r_{t-1},a_{t-1},s_t,r_t...,
s0,a0,s1,r1,a1,s2,r2...st−1,rt−1,at−1,st,rt...,
其中
r
t
=
r
(
s
t
−
1
,
a
t
−
1
,
s
t
)
r_t=r(s_{t-1},a_{t-1},s_t)
rt=r(st−1,at−1,st)是第
t
t
t时刻的即时奖励。
智能体与环境的交互过程可以看作一个马尔可夫决策过程,Markov Decision Process,MDP
马尔可夫过程是一组具有马尔可夫性质的随机变量序列
s
0
,
s
1
,
.
.
.
s
t
∈
S
s_0,s_1,...s_t \in S
s0,s1,...st∈S,其中下一个时刻的状态
s
t
+
1
s_{t+1}
st+1只取决于当前的状态
s
t
s_t
st,
p
(
s
t
+
1
∣
s
t
,
.
.
.
s
0
)
=
p
(
s
t
+
1
∣
s
t
)
p(s_{t+1}|s_t,...s_0)=p(s_{t+1}|s_t)
p(st+1∣st,...s0)=p(st+1∣st)
其中
p
(
s
t
+
1
∣
s
t
)
p(s_{t+1}|s_t)
p(st+1∣st)称为状态转移概率
∑
p
(
s
t
+
1
∣
s
t
)
=
1
,
s
t
+
1
∈
S
\sum_{}p(s_{t+1}|s_t)=1,s_{t+1}\in S
∑p(st+1∣st)=1,st+1∈S,也就是前文的
A
A
A矩阵。
马尔可夫决策过程在马尔可夫过程加入一个额外的变量:动作
a
a
a,下一个时刻的状态
s
t
+
1
s_{t+1}
st+1不但和当前时刻的状态
s
t
s_t
st相关,而且和动作
a
t
a_t
at相关,
p
(
s
t
+
1
∣
s
t
,
a
t
.
.
.
s
0
,
a
0
)
=
p
(
s
t
+
1
∣
s
t
,
a
t
)
p(s_{t+1}|s_t,a_t...s_0,a_0)=p(s_{t+1}|s_t,a_t)
p(st+1∣st,at...s0,a0)=p(st+1∣st,at)
其中
p
(
s
t
+
1
∣
s
t
,
a
t
)
p(s_{t+1}|s_t,a_t)
p(st+1∣st,at)称为状态转移概率。
直观的理解,下一个时刻的状态不仅由上一个时刻的状态有关,还和上一个时刻产生的动作有关。
给定策略
π
(
a
∣
s
)
\pi(a|s)
π(a∣s),马尔可夫决策过程的一个轨迹
(Trajectory)
τ
=
s
0
,
a
0
,
s
1
,
r
1
,
a
1
,
.
.
.
s
T
−
1
,
a
T
−
1
,
s
T
,
r
T
\tau=s_0,a_0,s_1,r_1,a_1,...s_{T-1},a_{T-1},s_{T},r_{T}
τ=s0,a0,s1,r1,a1,...sT−1,aT−1,sT,rT
的概率为:
如果将第一个状态拿出来,那么依次都是动作,新状态,奖励…依次到最后一个是动作,最终状态,奖励。
如果再写出来一项,第一个为起始的状态 s 0 s_0 s0,然后是在状态 s 1 s_1 s1下选择动作 a 1 a_1 a1这个策略的概率 π ( a 1 ∣ s 1 ) \pi(a_1|s_1) π(a1∣s1),然后乘以在状态 s 1 s_1 s1和采取动作 a 1 a_1 a1的情况下,结果到达状态 s 2 s_2 s2的条件概率 p ( s 2 ∣ s 1 , a 1 ) p(s_{2}|s_1,a_1) p(s2∣s1,a1)。
p ( τ ) = p ( s 0 , a 0 , s 1 , a 1 , . . . ) = p ( s 0 ) ∏ t = 0 T − 1 π ( a t ∣ s t ) p ( s t + 1 ∣ s t , a t ) = p ( s 0 ) π ( a 1 ∣ s 1 ) p ( s 2 ∣ s 1 , a 1 ) ∏ t = 1 T − 1 π ( a t ∣ s t ) p ( s t + 1 ∣ s t , a t ) \begin{aligned} p(\tau)&=p(s_0,a_0,s_1,a_1,...) \\ &=p(s_0)\prod_{t=0}^{T-1}\pi(a_t|s_t)p(s_{t+1}|s_t,a_t) \\ &=p(s_0)\pi(a_1|s_1)p(s_{2}|s_1,a_1)\prod_{t=1}^{T-1}\pi(a_t|s_t)p(s_{t+1}|s_t,a_t) \end{aligned} p(τ)=p(s0,a0,s1,a1,...)=p(s0)t=0∏T−1π(at∣st)p(st+1∣st,at)=p(s0)π(a1∣s1)p(s2∣s1,a1)t=1∏T−1π(at∣st)p(st+1∣st,at)
4.1.4 强化学习的目标函数
4.1.4.1 总回报
给定策略
π
(
a
∣
s
)
\pi(a|s)
π(a∣s),智能体和环境一次交互过程的轨迹
τ
\tau
τ所收到的累计奖励为总回报(Return)
G
(
τ
)
=
∑
t
=
0
T
−
1
r
t
+
1
=
∑
t
=
0
T
−
1
r
(
s
t
,
a
t
,
s
t
+
1
)
\begin{aligned} G(\tau)&=\sum_{t=0}^{T-1}r_{t+1} \\ &=\sum_{t=0}^{T-1}r(s_t,a_t,s_{t+1}) \end{aligned}
G(τ)=t=0∑T−1rt+1=t=0∑T−1r(st,at,st+1)
假设环境中有一个或多个特殊的终止状态
,当到达终止状态时,一个智能体和环境的交互过程就结束了。这一轮交互的过程为一个Episode
(回合) 或 trial
,一般的强化学习都属于这种回合式任务
。
如果环境中没有终止状态,即
T
=
∞
T= \infty
T=∞,称为持续式任务
,其总汇报也可能跟是无穷大,为了解决这个问题,我们可以引入一个折扣率来降低远期汇报的权重,折扣汇报定义为:
G
(
τ
)
=
∑
t
=
0
T
−
1
γ
t
r
t
+
1
G(\tau)=\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}
G(τ)=t=0∑T−1γtrt+1
其中,
γ
∈
[
0
,
1
]
\gamma \in [0,1]
γ∈[0,1]是折扣率,当
γ
\gamma
γ接近
0
0
0时候,智能体更在意短期回报,而当
γ
\gamma
γ接近于
1
1
1时候,长期汇报变得更重要。
4.1.4.2 目标函数
因为策略和状态转移都有一定的随机性,所以每次实验得到的轨迹是一个随机序列,其收获的总汇报也不一样。强化学习的目标是学习到一个策略
π
θ
(
a
∣
s
)
\pi_\theta(a|s)
πθ(a∣s)来最大化期望回报(Expected Return),即希望智能体执行一系列的动作来获得尽可能的平均汇报。
强化学习的目标函数为:
J
(
θ
)
=
E
τ
∼
p
θ
(
τ
)
[
G
(
τ
)
]
=
E
τ
∼
p
θ
(
τ
)
∑
t
=
0
T
−
1
γ
t
r
t
+
1
J(\theta)=E_{\tau\sim p_{\theta}(\tau)}[G(\tau)]=E_{\tau\sim p_{\theta}(\tau)}\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}
J(θ)=Eτ∼pθ(τ)[G(τ)]=Eτ∼pθ(τ)t=0∑T−1γtrt+1
其中
θ
\theta
θ为策略函数的参数。
4.1.5 值函数
为了评估策略
π
\pi
π的期望回报,我们定义两个值函数:状态值函数
和状态-动作值函数
。
4.1.5.1 状态值函数
策略 π \pi π的期望回报可以分解为:
相当于全概率公式,将状态 s s s的情况拿出来算期望,然后再把所有 s s s情况的期望加在一起,结果和原来一样
E τ ∼ p ( τ ) [ G ( τ ) ] = E τ ∼ p ( τ ) ∑ t = 0 T − 1 γ t r t + 1 = E s ∼ p ( s 0 ) [ E τ ∼ p ( τ ) [ ∑ t = 0 T − 1 γ t r t + 1 ∣ τ s 0 = s ] ] = E s ∼ p ( s 0 ) [ V π ( s ) ] \begin{aligned} E_{\tau\sim p_(\tau)}[G(\tau)]&=E_{\tau\sim p_(\tau)}\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}\\ &=E_{s\sim p(s_0)}[E_{\tau\sim p_(\tau)}[\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}|\tau_{s_0}=s]]\\ &=E_{s\sim p(s_0)}[V^{\pi}(s)] \end{aligned} Eτ∼p(τ)[G(τ)]=Eτ∼p(τ)t=0∑T−1γtrt+1=Es∼p(s0)[Eτ∼p(τ)[t=0∑T−1γtrt+1∣τs0=s]]=Es∼p(s0)[Vπ(s)]
其中
V
π
(
s
)
V^{\pi}(s)
Vπ(s)称为状态值函数
,表示从状态
s
s
s开始,执行策略
π
\pi
π后得到的期望总回报
V
π
(
s
)
=
E
τ
∼
p
(
τ
)
[
∑
t
=
0
T
−
1
γ
t
r
t
+
1
∣
τ
s
0
=
s
]
V^{\pi}(s)=E_{\tau\sim p_(\tau)}[\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}|\tau_{s_0}=s]
Vπ(s)=Eτ∼p(τ)[t=0∑T−1γtrt+1∣τs0=s]
其中, τ s 0 \tau_{s_0} τs0表示轨迹 τ \tau τ的起始状态。
为了方便起见,我们用
τ
0
:
T
\tau_{0:T}
τ0:T表示轨迹
s
0
,
a
0
,
s
1
,
a
1
,
.
.
.
s
T
s_0,a_0,s_1,a_1,...s_T
s0,a0,s1,a1,...sT,用
τ
1
:
T
\tau_{1:T}
τ1:T表示轨迹
s
1
,
a
1
,
.
.
.
s
T
s_1,a_1,...s_T
s1,a1,...sT,因此有
τ
0
:
T
=
s
0
,
a
0
,
τ
1
:
T
\tau_{0:T}=s_0,a_0,\tau_{1:T}
τ0:T=s0,a0,τ1:T
因此,
下一个时刻的轨迹为从某个初始的状态出发,执行动作后的期望(概率为策略 π \pi π),乘以在初始状态和动作情况下转移到新状态的期望(概率为 p p p),最后乘以新轨迹的概率 p p p
E τ 0 : T ∼ p ( τ ) = E a ∼ π ( a ∣ s ) E s ′ ∼ p ( s ′ ∣ s , a ) E τ 1 : T ∼ p ( τ ) E_{\tau_{0:T} \sim p(\tau)}=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}E_{\tau_{1:T}\sim p(\tau)} Eτ0:T∼p(τ)=Ea∼π(a∣s)Es′∼p(s′∣s,a)Eτ1:T∼p(τ)
根据马尔可夫性质,
V
π
(
s
)
V^{\pi}(s)
Vπ(s)可以展开得到:
V
π
(
s
)
=
E
τ
0
:
T
∼
p
(
τ
)
[
r
1
+
γ
∑
i
=
1
T
−
1
γ
t
−
1
∣
τ
s
0
=
s
]
=
E
a
∼
π
(
a
∣
s
)
E
s
′
∼
p
(
s
′
∣
s
,
a
)
E
τ
1
:
T
∼
p
(
τ
)
[
r
(
s
,
a
,
s
′
)
+
γ
∑
i
=
1
T
−
1
γ
t
−
1
∣
τ
s
0
=
s
′
]
=
E
a
∼
π
(
a
∣
s
)
E
s
′
∼
p
(
s
′
∣
s
,
a
)
[
r
(
s
,
a
,
s
′
)
+
γ
E
τ
1
:
T
∼
p
(
τ
)
[
∑
i
=
1
T
−
1
γ
t
−
1
∣
τ
s
0
=
s
′
]
]
=
E
a
∼
π
(
a
∣
s
)
E
s
′
∼
p
(
s
′
∣
s
,
a
)
[
r
(
s
,
a
,
s
′
)
+
γ
V
π
(
s
’
)
]
=
E
a
∼
π
(
a
∣
s
)
Q
π
(
s
,
a
)
\begin{aligned} V^{\pi}(s)&=E_{\tau_{0:T} \sim p(\tau)}[r_1+\gamma\sum_{i=1}^{T-1}\gamma^{t-1}|\tau_{s_0}=s] \\ &=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}E_{\tau_{1:T}\sim p(\tau)}[r(s,a,s')+\gamma\sum_{i=1}^{T-1}\gamma^{t-1}|\tau_{s_0}=s'] \\ &=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma E_{\tau_{1:T}\sim p(\tau)}[\sum_{i=1}^{T-1}\gamma^{t-1}|\tau_{s_0}=s']] \\ &=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s’)] \\ &=E_{a\sim \pi(a|s)}Q^{\pi}(s,a) \end{aligned}
Vπ(s)=Eτ0:T∼p(τ)[r1+γi=1∑T−1γt−1∣τs0=s]=Ea∼π(a∣s)Es′∼p(s′∣s,a)Eτ1:T∼p(τ)[r(s,a,s′)+γi=1∑T−1γt−1∣τs0=s′]=Ea∼π(a∣s)Es′∼p(s′∣s,a)[r(s,a,s′)+γEτ1:T∼p(τ)[i=1∑T−1γt−1∣τs0=s′]]=Ea∼π(a∣s)Es′∼p(s′∣s,a)[r(s,a,s′)+γVπ(s’)]=Ea∼π(a∣s)Qπ(s,a)
- 贝尔曼方程 V π ( s ) = E a ∼ π ( a ∣ s ) E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ V π ( s ’ ) ] V^{\pi}(s)=E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s’)] Vπ(s)=Ea∼π(a∣s)Es′∼p(s′∣s,a)[r(s,a,s′)+γVπ(s’)]
表示当前状态的值函数可以通过下个状态的值函数来计算。
如果给定了策略 π ( a ∣ s ) \pi(a|s) π(a∣s),状态转移概率 p ( s ′ ∣ s , a ) p(s'|s,a) p(s′∣s,a)和奖励 r ( s , a , s ′ ) r(s,a,s') r(s,a,s′),我们就可以通过迭代的方式来计算 V π ( s ) V^{\pi}(s) Vπ(s),由于存在一定的折扣率,迭代一定步数后,每个状态的值函数就会越来越小,直到固定不变。
4.1.5.2 状态-动作值函数
公式中的第二个期望是指从初始状态为
s
s
s执行动作
a
a
a,然后执行策略
π
\pi
π得到的总回报,称为状态-动作值函数
表示当前状态的值函数可以通过下个状态的值函数来计算。
如果给定了策略 π ( a ∣ s ) \pi(a|s) π(a∣s),状态转移概率 p ( s ′ ∣ s , a ) p(s'|s,a) p(s′∣s,a)和奖励 r ( s , a , s ′ ) r(s,a,s') r(s,a,s′),我们就可以通过迭代的方式来计算 V π ( s ) V^{\pi}(s) Vπ(s),由于存在一定的折扣率,迭代一定步数后,每个状态的值函数就会越来越小,直到固定不变。
公式中的第二个期望是指从初始状态为
s
s
s执行动作
a
a
a,然后执行策略
π
\pi
π得到的总回报,称为状态-动作值函数
,也称为Q函数
Q
π
(
s
,
a
)
=
E
s
′
∼
p
(
s
′
∣
s
,
a
)
[
r
(
s
,
a
,
s
′
)
+
γ
V
π
(
s
′
)
]
Q^{\pi}(s,a)=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s')]
Qπ(s,a)=Es′∼p(s′∣s,a)[r(s,a,s′)+γVπ(s′)]
状态值函数
V
π
(
s
)
V^{\pi}(s)
Vπ(s)是
Q
Q
Q函数
Q
π
(
s
,
a
)
Q^{\pi}(s,a)
Qπ(s,a)关于动作
a
a
a的期望,即:
V
π
(
s
)
=
E
a
∼
π
(
a
∣
s
)
Q
π
(
s
,
a
)
V^{\pi}(s)=E_{a\sim \pi(a|s)}Q^{\pi}(s,a)
Vπ(s)=Ea∼π(a∣s)Qπ(s,a)
同理来推导
Q
Q
Q函数的迭代公式:
Q
π
(
s
,
a
)
=
E
s
′
∼
p
(
s
′
∣
s
,
a
)
[
r
(
s
,
a
,
s
′
)
+
γ
V
π
(
s
′
)
]
=
E
s
′
∼
p
(
s
′
∣
s
,
a
)
[
r
(
s
,
a
,
s
′
)
+
γ
E
a
′
∼
π
(
a
′
∣
s
′
)
Q
π
(
s
′
,
a
′
)
]
\begin{aligned} Q^{\pi}(s,a)&=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^{\pi}(s')] \\ &=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma E_{a'\sim \pi(a'|s')}Q^{\pi}(s',a')] \\ \end{aligned}
Qπ(s,a)=Es′∼p(s′∣s,a)[r(s,a,s′)+γVπ(s′)]=Es′∼p(s′∣s,a)[r(s,a,s′)+γEa′∼π(a′∣s′)Qπ(s′,a′)]
- Q值的贝尔曼方程 Q π ( s , a ) = E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ E a ′ ∼ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^{\pi}(s,a)=E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma E_{a'\sim \pi(a'|s')}Q^{\pi}(s',a')] Qπ(s,a)=Es′∼p(s′∣s,a)[r(s,a,s′)+γEa′∼π(a′∣s′)Qπ(s′,a′)]
4.1.5.3 值函数的作用
值函数可以看作对策略 π \pi π的评估,因此我们就可以根据值函数来优化策略。假设在状态 s s s,有一个动作 a ∗ a^* a∗,使得 Q π ( s , a ∗ ) > v π ( s ) Q^{\pi}(s,a^*)>v^{\pi}(s) Qπ(s,a∗)>vπ(s),即执行动作 a ∗ a^* a∗的回报,大于期望值,比当前的策略 π ( a ∣ s ) \pi(a|s) π(a∣s)要高,我们就可以调整参数,使得策略中动作 a ∗ a^* a∗的概率 p ( a ∗ ∣ s ) p(a^*|s) p(a∗∣s)增加。
状态值函数 V π ( s ) V^{\pi}(s) Vπ(s) | 状态-动作值函数 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a) | |
---|---|---|
含义 | 从状态 s s s开始,执行策略 π \pi π后得到的期望总回报 | 从初始状态为 s s s执行动作 a a a,然后执行策略 π \pi π得到的总回报 |
计算公式 | V π ( s ) = E τ ∼ p ( τ ) [ ∑ t = 0 T − 1 γ t r t + 1 ∣ τ s 0 = s ] V^{\pi}(s)=E_{\tau\sim p_(\tau)}[\sum_{t=0}^{T-1}\gamma^{t}r_{t+1}\mid\tau_{s_0}=s] Vπ(s)=Eτ∼p(τ)[t=0∑T−1γtrt+1∣τs0=s] | Q π ( s , a ) = E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ V π ( s ′ ) ] Q^{\pi}(s,a)=E_{s'\sim p(s'\mid s,a)}[r(s,a,s')+\gamma V^{\pi}(s')] Qπ(s,a)=Es′∼p(s′∣s,a)[r(s,a,s′)+γVπ(s′)] |
贝尔曼 | V π ( s ) = E a ∼ π ( a ∣ s ) E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ V π ( s ’ ) ] V^{\pi}(s)=E_{a\sim \pi(a \mid s)}E_{s'\sim p(s'\mid s,a)}[r(s,a,s')+\gamma V^{\pi}(s’)] Vπ(s)=Ea∼π(a∣s)Es′∼p(s′∣s,a)[r(s,a,s′)+γVπ(s’)] | Q π ( s , a ) = E s ′ ∼ p ( s ′ ∣ s , a ) [ r ( s , a , s ′ ) + γ E a ′ ∼ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^{\pi}(s,a)=E_{s'\sim p(s'\mid s,a)}[r(s,a,s')+\gamma E_{a'\sim \pi(a'\mid s')}Q^{\pi}(s',a')] Qπ(s,a)=Es′∼p(s′∣s,a)[r(s,a,s′)+γEa′∼π(a′∣s′)Qπ(s′,a′)] |
关系 | 状态值函数 V π ( s ) V^{\pi}(s) Vπ(s)是 Q Q Q函数 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)关于动作 a a a的期望 | V π ( s ) = E a ∼ π ( a ∣ s ) Q π ( s , a ) V^{\pi}(s)=E_{a\sim \pi(a\mid s)}Q^{\pi}(s,a) Vπ(s)=Ea∼π(a∣s)Qπ(s,a) |
4.1.6 深度强化学习
在强化学习中,一般需要建模策略 π ( a ∣ s ) \pi(a|s) π(a∣s)和值函数 V π ( s ) , Q π ( s ) V^\pi(s),Q^\pi(s) Vπ(s),Qπ(s)。早期的强化学习算法主要关注状态和动作都是离散且有限的问题。
在强化学习中,一般需要建模策略 π ( a ∣ s ) \pi(a|s) π(a∣s)和值函数 V π ( s ) , Q π ( s ) V^\pi(s),Q^\pi(s) Vπ(s),Qπ(s)。早期的强化学习算法主要关注状态和动作都是离散且有限的问题。但在很多实际问题中,有些任务的状态和动作的数量非常多,如在自动驾驶中,智能体感知到的环境状态是各种传感器数据,一般都是连续的,动作是操作方向盘的方向和速度,也是连续的。
为了有效地解决这些问题,我们可以设计一个更强的策略函数,如深度神经网络
,使得智能体可以应对复杂的环境,学习更优的策略,并由更好的泛化能力。
深度强化学习
是将强化学习和深度学习结合在一起,其中:
- 强化学习:定义问题和优化目标
- 深度学习:解决策略和值函数的建模,并用误差反向传播来优化目标函数