A distributional perspective on reinforcement learning
dist RL开山之作,理论分析一大堆W距离,实现用KL,还是建议看看,否则后续可能懵逼
https://arxiv.org/abs/1707.06887
return-回报
reward-奖励
value-价值
本文主体是下文的拷贝,用于记录阅读过程中的问题,笔记.
附上参考博文:https://www.cnblogs.com/lucifer1997/p/13278861.html
abstract
在本文中,我们强调了价值分布的重要性。值分布是强化学习智能体获得的随机回报的分布。这与强化学习的通用方法形成对比,通用方法是对回报分布或价值分布的期望进行建模的方法。尽管已有大量研究价值分布的文献,但迄今为止,它一直被用于特定目的,例如实现风险意识行为(risk-aware behaviour)。我们从策略评估和控制设置(control settings)方面的理论结果开始,揭示了control settings分布不稳定性。然后,我们使用分布的观点来设计一种新算法,该算法将Bellman方程应用于近似价值分布的学习。我们使用Arcade学习环境中的游戏评估新算法。我们同时获得了性能最优异结果和证明了价值分布在强化学习近似中的重要性。最后,我们结合理论和经验证据来强调在近似设置(approximate setting)中价值分布 影响 学习的方式。
1.Introduction
强化学习的宗旨之一是,(当agent 的行为不受其他方式的约束时) agent应最大化期望效用(utility)或价值Q(Sutton&Barto, 1998)。Bellman方程根据随机转换(x, a) → (X’, A’)的期望回报和期望结果(outcome) 简洁地 描述了该价值的计算:
Q
(
x
,
a
)
=
E
R
(
x
,
a
)
+
γ
E
Q
(
x
′
,
a
′
)
Q(x,a) =\mathbb{E} R(x,a) + \gamma \mathbb{E} Q(x',a')
Q(x,a)=ER(x,a)+γEQ(x′,a′)
在本文中,我们的目标是价值Q之外概念,主张采用分布的观点来 建模 强化学习。具体来说,我们研究的对象是 期望为Q 的 随机回报Z。此随机回报也可由递归方程描述,但具有分布性质(等号表明两边的随机变量符合相同的分布规律):
Z
(
x
,
a
)
=
R
(
x
,
a
)
+
γ
Z
(
x
′
,
a
′
)
Z(x,a) = R(x,a) + \gamma Z(x',a')
Z(x,a)=R(x,a)+γZ(x′,a′)
分布式Bellman方程(distributional Bellman equation)指出,Z的分布以三个随机变量的相互作用的结果:奖励(reward)R,下一个状态-动作(X’, A’)及其随机回报Z(X’, A’)。与众所周知的情况类似,我们将Z(x,a)称为价值分布(value distribution)。
尽管分布式的观点与Bellman方程几乎一样古老(Jaquette, 1973;Sobel, 1982;White, 1988)。但到目前为止,在强化学习中,它已只是被用于某些特定的目的:用于建模参数的不确定性(Dearden et al., 1998),设计风险敏感算法(Morimura et al., 2010b;a)或进行理论分析(Azar et al., 2012;Lattimore&Hutter, 2012)。以上用途相比,我们认为价值分布在强化学习中应当起着更核心作用。
Contraction of the policy evaluation Bellman operator. --策略估计贝尔曼算子的收缩性
根据Rösler(1992)的结果,我们表明,对于固定策略,价值分布的Bellman算子在Wasserstein(也称为Kantorovich或Mallows)度量的最大形式下是收缩的。我们特别选了这个度量:同一算子在一些距离,例如Kullback-Leibler散度或Kolmogorov距离的上,不是总体收缩的。
Instability in the control setting. 我们证明,与策略评估案例相比不同的是,分布式Bellman最优方程在control setting中不稳定。具体而言,尽管最优算子的期望价值是收缩的(与通常的最优结果匹配),但它并不是在任何度量下都是收缩的。这些结果提供了支持某一类学习算法的证据,这一类学习算法是对非平稳策略的影响进行建模的算法。
Better approximations. 从算法的角度来看,学习近似分布而不是近似期望有很多好处。分布式Bellman算子保留了价值分布的多模态(信息),我们相信这会导致更稳定的学习。逼近全部分布还可以减轻从非平稳策略中学习的影响。整体而言,我们认为这种方法使近似强化学习的行为表现得更好。
我们将在Arcade学习环境(Bellemare et al. 2013)中表明分布式强化学习的实际好处。通过对DQN(Mnih et al., 2015)中agent 价值分布的建模,我们在基准Atari 2600游戏的整个范围内获得了显著的性能提高,并且实际上在许多游戏上都达到了最先进的性能。我们的结果与Veness et al.(2015)的结果相相当,他通过预测蒙特卡洛的汇报使得学习极其迅速。
从监督学习的角度来看,学习完整的价值分布似乎是显而易见的:为什么将自己限制在均值?当然,主要区别在于在我们的环境中没有给定的目标。取而代之的是,我们使用Bellman方程使学习过程易于处理。正如Sutton&Barto(1998)所说,我们必须“从猜测中学习猜测”。我们相信,这种猜测最终带来的好处多于消耗。
2.setting
一个智能体以一种标准的方式与环境进行交互:在每一步中,agent依据其当前状态选择一个动作,环境会对此动作响应一个奖励和进行下一个状态转换。我们将此交互建模为时间同质(time-homogeneous)的马尔可夫决策过程(X, A, R, P, γ)。通常,X和A分别是状态空间和动作空间,P是转换核P(· | x, a),γ∈[0, 1]是折扣因子,R是奖励函数,在本文中,我们将其视为随机变量。固定策略π将每个状态x∈X映射到动作空间A上的概率分布。
2.1. Bellman’s Equations
回报
Z
π
Z^π
Zπ是沿着agent与环境互动的(马尔可夫)轨迹所获得的折扣奖励的加权和。策略π的价值函数
Q
π
Q^π
Qπ描述了从状态x∈X采取动作a∈A,然后根据π获得的期望回报(价值函数的定义):
Q
π
(
x
,
a
)
:
=
E
Z
π
(
x
,
a
)
=
E
[
∑
t
=
0
∞
γ
t
R
(
x
t
,
a
t
)
]
Q^{\pi}(x,a):=\mathbb{E}Z^{\pi}(x,a)=\mathbb{E}[\sum_{t=0}^{\infty}\gamma^tR(x_t,a_t)]
Qπ(x,a):=EZπ(x,a)=E[t=0∑∞γtR(xt,at)]
x t ∼ P ( . ∣ x t − 1 , a t − 1 ) , a t ∼ π ( . ∣ x t ) , x 0 = x , a 0 = a x_t \sim P(.|x_{t-1},a_{t-1}),a_t\sim \pi(.|x_t), x_0 = x, a_0 = a xt∼P(.∣xt−1,at−1),at∼π(.∣xt),x0=x,a0=a
(常用的)强化学习的基础是使用Bellman方程(Bellman, 1957)来描述价值函数(价值函数的迭代更新式):
Q
π
(
x
,
a
)
=
E
R
(
x
,
a
)
+
γ
E
P
,
π
Q
π
(
x
′
,
a
′
)
Q^{\pi}(x,a)=\mathbb{E}R(x,a)+\gamma\mathbb{E}_{P,\pi}Q^{\pi}(x',a')
Qπ(x,a)=ER(x,a)+γEP,πQπ(x′,a′)
在(常用的)强化学习中,我们感兴趣的是寻找使回报最大化动作。最常见的方法是使用最优方程(来实现回报最大化):
Q
∗
(
x
,
a
)
=
E
R
(
x
,
a
)
+
γ
E
max
a
′
∈
A
Q
∗
(
x
′
,
a
′
)
Q^*(x,a)=\mathbb{E}R(x,a)+\gamma\mathbb{E}\max_{a'\in A}Q^*(x',a')
Q∗(x,a)=ER(x,a)+γEa′∈AmaxQ∗(x′,a′)
该方程具有唯一的不动点Q*,即最优价值函数,对应于最优策略集
Π
∗
\Pi^*
Π∗:
E
a
∼
π
∗
Q
∗
(
x
,
a
)
=
max
a
Q
∗
(
x
,
a
)
\mathbb{E}_{a\sim\pi^*}Q^*(x,a) = \max_a Q^*(x,a)
Ea∼π∗Q∗(x,a)=amaxQ∗(x,a)
我们将价值函数视为
R
X
∗
A
\mathbb{R}^{\mathcal{X}*A}
RX∗A空间中的向量,并将期望奖励函数也视为这样的向量。在这种情况下,Bellman算子
T
π
\mathcal{T}^\pi
Tπ和最优算子
T
\mathcal{T}
T如下(算子就是如下两个操作):
T
π
Q
(
x
,
a
)
:
=
E
R
(
x
,
a
)
+
γ
E
P
,
π
Q
π
(
x
′
,
a
′
)
\mathcal{T}^\pi Q(x,a):=\mathbb{E}R(x,a)+\gamma\mathbb{E}_{P,\pi}Q^{\pi}(x',a')
TπQ(x,a):=ER(x,a)+γEP,πQπ(x′,a′)
T Q ( x , a ) : = E R ( x , a ) + γ E max a ′ ∈ A Q ∗ ( x ′ , a ′ ) \mathcal{T}Q(x,a):=\mathbb{E}R(x,a)+\gamma\mathbb{E}\max_{a'\in A}Q^*(x',a') TQ(x,a):=ER(x,a)+γEa′∈AmaxQ∗(x′,a′)
这些算子非常有用,因为它们描述了流行的学习算法(例如SARSA和Q-Learning)的期望行为。特别地,它们都是压缩映射,以某些Q0初始化,重复应用两个算子,将会以指数速度收敛到 Q π Q^π Qπ或Q*(Bertsekas&Tsitsiklis, 1996)。
3.The Distributional Bellman Operators
在本文中,我们去掉了Bellman方程式中的期望符号,考虑随机变量 Z π Z^π Zπ的完整分布。从这里开始,我们将 Z π Z^π Zπ视为状态-动作对到 回报分布 的映射,并将其称为价值分布(value distribution)。
我们的第一个目标是要了解Bellman算子的模拟分布的理论行为,尤其是在不太容易理解的control setting中。只对算法感兴趣的读者可以选择跳过此部分。
3.1 Distributional Equations
有时候使用概率空间 ( Ω , F , P r ) (\Omega,\mathcal{F},P_r) (Ω,F,Pr). 不熟悉测度论的读者可以将 Ω \Omega Ω认为是一个实验的所有可能输出(Billingsley,1995). 将 ∣ ∣ u ∣ ∣ p ||u||_p ∣∣u∣∣p记为向量 u ∈ R X u \in \mathbb{R}^{\mathcal{X}} u∈RX的 p p p范数 ( 1 < = p < = ∞ ) (1<=p<=\infty) (1<=p<=∞), 同样的表示被应用与于向量空间 R X ∗ A \mathbb{R}^{\mathcal{X}*A} RX∗A. 随机向量 U : Ω − > R X o r R X ∗ A U:\Omega->\mathbb{R}^{\mathcal{X}}or\mathbb{R}^{\mathcal{X}*A} U:Ω−>RXorRX∗A的p 范数表示为: ∣ ∣ U ∣ ∣ p : = [ E [ ∣ ∣ U ( ω ) ∣ ∣ p p ] ] 1 / p ||U||_p:=[\mathbb{E}[||U(\omega)||_p^p]]^{1/p} ∣∣U∣∣p:=[E[∣∣U(ω)∣∣pp]]1/p,当 p = ∞ p=\infty p=∞时, ∣ ∣ U ∣ ∣ ∞ = e e s s u p ∣ ∣ U ( ω ) ∣ ∣ ∞ ||U||_{\infty}=ees sup||U(\omega)||_{}\infty ∣∣U∣∣∞=eessup∣∣U(ω)∣∣∞。
将随机变量
U
U
U的累积分布函数记为
F
U
(
y
)
:
=
P
r
{
U
<
=
y
}
F_U(y):=P_r\{U<=y\}
FU(y):=Pr{U<=y}
累积分布函数的逆函数记为:
F
U
−
1
(
q
)
:
=
inf
{
y
,
F
U
(
y
)
>
=
q
}
F_U^{-1}(q):=\inf\{y,F_U(y)>=q\}
FU−1(q):=inf{y,FU(y)>=q}
注:inf:下确界;ess sup(essential supermum,本质上确界):https://blog.csdn.n
et/qianhen123/article/details/41845837
分布等式 表示随机变量U与V的分布规律相同。在不失一般性的前提下,读者可以将分布等式的两侧理解为与两个独立随机变量的相关。分布等式已被Engel et al.(2005);Morimura(2010a)用于强化学习以及White(1988)的运筹学。
3.2. The Wasserstein Metric
我们进行分析的主要工具是累积分布函数之间的Wasserstein度量dp(参见Bickel&Freedman, 1981,又被称为Mallows度量)。对于F,G在实数上的两个累积分布函数,其dp定义为:
d
p
(
F
,
G
)
:
=
inf
U
,
V
∣
∣
U
−
V
∣
∣
p
d_p(F,G):=\inf_{U,V}||U-V||_p
dp(F,G):=U,Vinf∣∣U−V∣∣p
其中,对累积分布F和G的所有随机变量对(U, V)求下确界。通过变换成两者累积分布函数的逆函数(其中
U
\mathcal{U}
U为[0, 1]中均匀采样的随机变量)求解下确界中:
d
p
(
F
,
G
)
=
∣
∣
F
−
1
(
U
)
−
G
−
1
(
U
)
∣
∣
p
d_p(F,G)=||F^{-1}(\mathcal{U})-G^{-1}(\mathcal{U})||_p
dp(F,G)=∣∣F−1(U)−G−1(U)∣∣p
对于p < ∞,上式可以更明确地写成:
d
p
(
F
,
G
)
=
(
∫
0
1
∣
F
−
1
(
u
)
−
G
−
1
∣
p
d
u
)
(
1
/
p
)
d_p(F,G)=(\int_0^1|F^{-1}(u)-G^{-1}|^pdu)^(1/p)
dp(F,G)=(∫01∣F−1(u)−G−1∣pdu)(1/p)
给定两个随机变量U,V,其累计分布函数为
F
U
F_U
FU,
F
V
F_V
FV,我们将其写作
d
p
(
U
,
V
)
:
=
d
p
(
F
U
,
F
V
)
dp(U, V) := dp(F_U, F_V)
dp(U,V):=dp(FU,FV)。我们会发现将考虑下的随机变量与其在下确界中的版本进行合并很方便,写作:
d
p
(
U
,
V
)
=
inf
U
,
V
∣
∣
U
,
V
∣
∣
p
d_p(U,V)=\inf_{U,V}||U,V||_p
dp(U,V)=U,Vinf∣∣U,V∣∣p
任何时候(只要不引起歧义就这么写);我们认为,更大的可读性证明了技术上的不准确性。最后,我们使用相应的Lp范数将此度量扩展到随机变量的向量,例如价值分布。
(讲W距离的特性)
考虑一个标量a和一个与U,V独立的随机变量A。度量dp具有以下属性:
我们将需要以下额外属性,该属性不对其变量进行独立假设。附录中给出了它的证明以及以后的结果。
3.3. Policy Evaluation
在策略评估设置(policy evaluation setting)中(Sutton&Barto, 1998),一般感兴趣的是与给定策略相关联的价值函数 V π V^π Vπ。类比与价值函数,我们感兴趣的是是价值分布 Z π Z^π Zπ。在本节中,我们将建模 Z π Z^π Zπ并研究策略评估算子 T π \mathcal{T}^π Tπ的行为。我们强调, Z π Z^π Zπ描述的是智能体与其环境互动的固有随机性,而不是环境本身不确定性的某种度量。
我们将奖励函数视为随机向量
R
∈
Z
R\in \mathcal{Z}
R∈Z,并定义了转换算子
P
π
:
Z
→
Z
P^{\pi}:\mathcal{Z}\rightarrow \mathcal{Z}
Pπ:Z→Z(作用在动作转台价值分布上,然后进行动作价值分布转换):
在上式中使用大写字母表示下一个动作状态对
(
X
′
,
A
′
)
(X',A')
(X′,A′)的随机特性。将分布式贝尔曼算子
T
π
:
Z
→
Z
\mathcal{T}^{\pi}:\mathcal{Z}\rightarrow\mathcal{Z}
Tπ:Z→Z定义如下:
(这两个式子与之前的价值函数的定义和价值函数的贝尔曼算子更新式相对应)
尽管 T π \mathcal{T}^π Tπ与通常的Bellman算子(2)表面十分相似,但本质上是不同的。特别地,三个随机性来源定义了复合分布 T π Z \mathcal{T}^πZ TπZ:
a) 奖励R中的随机性;
b) 转换
P
π
P^π
Pπ中的随机性;
c) 下一个状态-价值分布Z(X’, A’)。
特别是,我们通常假设这三个量是独立的。在本节中,我们将展示(5)是一个压缩映射,其唯一不动点是随机回报 Z π Z^π Zπ。
3.3.1. CONTRACTION IN dp
(略)
3.3.2. CONTRACTION IN CENTERED MOMENTS
(略)
3.4. Control
到目前为止,我们已经考虑了固定策略π,并研究了其关联算子 T π \mathcal{T}^π Tπ的行为。现在,我们着手了解控制设置(control setting)的分布式算子——我们在其中寻求最大价值的策略π——以及最优价值分布的相应概念。与最优价值函数一样,该概念与最优策略紧密相关。但是,尽管所有最优策略都获得相同的价值Q*,但在我们的案例中却出现了一个困难:通常存在许多最优价值分布。(最优价值函数就存在一个,但是最优价值分布却存在很多个)
在本节中,我们表明Bellman最优分布算子在较弱的意义上收敛于最优价值分布的集合。但是,此算子在分布之间的任何度量上都不是压缩映射,并且通常比策略评估算子更加反复无常。我们认为,我们在此处概述的收敛性问题是贪婪更新固有的不稳定性的征兆,例如,Tsitsiklis(2002)和最近的Harutyunyan et al.(2016)。(control setting 分布式算子的不稳定性)
(略)
4. Approximate Distributional Learning
在本节中,我们提出一种基于分布Bellman最优算子的算法。特别是,这需要选择一个近似分布。尽管以前曾有人考虑过高斯分布的情况(Morimuraet al., 2010a;Tamar et al., 2016),但据我们所知,我们是第一个使用丰富的参数分布类的人。
4.1. Parametric Distribution
我们使用 由
N
∈
N
N \in \mathbb{N}
N∈N和
V
m
i
n
,
V
m
a
x
∈
R
V_{min},V_{max}\in \mathbb{R}
Vmin,Vmax∈R(其支持(support)是原子(atom)集
{
z
i
=
V
m
i
n
+
i
Δ
z
}
,
Δ
z
:
=
V
m
a
x
−
V
m
i
n
N
−
1
\{z_i=V_{min}+ i\Delta z\},\Delta z:=\frac{V_{max}-V_{min}}{N-1}
{zi=Vmin+iΔz},Δz:=N−1Vmax−Vmin)参数化的离散分布,对价值分布进行建模.其中。从某种意义上说,这些原子是我们分布的“规范回报”。原子概率由以下参数模型给出:
Z
θ
(
x
,
a
)
=
z
i
w
.
p
p
i
(
x
,
a
)
:
=
e
θ
i
(
x
,
a
)
∑
j
e
θ
j
(
x
,
a
)
Z_{\theta}(x,a)=z_i\ w.p \ p_i(x,a):=\frac{e^{\theta _i(x,a)}}{\sum_je^{\theta_j(x,a)}}
Zθ(x,a)=zi w.p pi(x,a):=∑jeθj(x,a)eθi(x,a)
这个离散分布的优点是高度表达和计算友好(例如参见Van den Oord et al., 2016)。
4.2. Projected Bellman Update
使用离散分布会带来一个问题:Bellman更新 T Z θ \mathcal{T}Z_θ TZθ和参数化 Z θ Z_θ Zθ总是有不连接的支撑集(使用一般距离度量造成问题,所以要采用W距离)。从第3节的分析来看,将 T Z θ \mathcal{T}Z_θ TZθ与 Z θ Z_θ Zθ之间的Wasserstein度量(视为损失)最小化似乎是很自然的选择,方便地解决支持差异造成的问题。但是,选用W距离会引起另一个问题:在实践中,Wasserstein损失下,是不可能通过采样样本更新参数来实现优化的.(请参阅附录5和toy结果)。
取而代之的是,我们将
T
Z
θ
\mathcal{T}Z_θ
TZθ投影到
Z
θ
Z_θ
Zθ的支持集上(图1,算法1),有效地将Bellman更新减少到多类别分类。令π为关于
E
Z
θ
\mathbb{E}Z_{\theta}
EZθ的贪婪策略。给定样本转换(x, a, r, x’),对于每一个原子
z
j
z_j
zj 我们使用Bellman更新式子
T
^
z
j
:
=
r
+
γ
z
j
\hat{\mathcal{T}}z_j:=r+\gamma z_j
T^zj:=r+γzj,然后将其概率
p
j
(
x
′
,
π
(
x
′
)
)
p_j(x',\pi(x'))
pj(x′,π(x′))分配给
T
^
z
j
\hat{\mathcal{T}}z_j
T^zj的直接邻居。投影更新的第 i 个组成部分为:
其中将其参数限制在[a, b]。和往常一样,我们将下一状态分布视为由固定参数
θ
~
\tilde{\theta}
θ~参数化。样本损失是KL散度的交叉熵项:
这很容易被最小化,例如,使用梯度下降。我们称这种分布和损失的选择为categorical algorithm。当N = 2时,一个简单的单参数替代为:
我们称其为伯努利算法。我们注意到,尽管这些算法似乎与Wasserstein度量无关,但最近的工作(Bellemare et al., 2017)暗示了更深的联系。
(没有很明白
m
l
,
m
u
m_l,m_u
ml,mu是干嘛的)
5. Evaluation on Atari 2600 Games
(略)