逆强化学习论文笔记 (一)

Algorithm for Inverse Reinforcement Learning

摘要:这篇文章解决了马尔可夫决策过程中的逆强化学习问题,也就是,从一个给定被观察的、最优的行为中提取出reward function。IRL也许可以帮助apprenticeship learning获得熟练的行为,以及确定由自然系统优化的reward function。我们首先刻画给定最优策略的reward function的集合,然后我们推导出三个IRL的算法。前面两个算法解决知道entire policy的情形;我们处理在有限状态空间中的表格型reward function和潜在无线状态空间上reward function的线性函数逼近。第三个算法处理更加实际的情形,即策略只能通过一个有限的可被观察的trajectory的集合来被知道。在所有的情形中,一个关键的问题就是degeneracy(退化)——存在大量的reward function导致被观察到的策略是最优的。为了消除degeneracy,我们建议使用一些自然启发式方法来尝试选择一个能够最大限度地将观察到的策略与其他次优策略区分开来的reward function。这导致了IRL问题的一个可被高效解决的线性规划建模。我们在简单的离散/有限和连续/无线的状态问题上验证了我们的算法。

Introduction

逆强化学习问题可以被不正式地刻画成如下:

Given

  1. 在各种情形下,一个agent随时间变化的行为的评估(measurements)
  2. 如果需要的话,measurements of the sensory inputs to that agent
  3. 如果有的话,一个环境模型

Determine 正在被优化的reward function

我们可以确定这个问题的motivation的两个来源。第一个是强化学习和其相关的方法有潜力作为动物和人类学习的计算模型。这些得到行为研究和神经生理学支持的模型被证明强化学习发生在蜜蜂觅食和夜莺发声中。然而,这个文献假设reward function是固定和已知的——例如,蜜蜂觅食模型假设每朵花的reward是花蜜含量的简单饱和函数(saturating function)。很明显的是,在检查动物和人类行为时,我们必须将reward function视为一个需要实验研究的未知的东西。这在多属性的reward function上是尤其正确的。例如,考虑到蜜蜂可能会根据飞行距离、时间以及风和捕食者的风险来衡量花蜜摄入量。这很难知道如何先验的确定这些属性的相对权重。相似的考虑也同样发生在人类的经济行为身上。因此,逆强化学习是生物理论,经济理论和其他领域的一个基础问题。

第二个motivation来自于在一个指定的领域构建一个能够成功行动的智能体的任务。一个agent设计者(或者是agent它本身)可能只有一个关于能够生成理想行为的reward function的初步的想法,所以直接的强化学习可能不再适用。(例如,考虑自动驾驶的任务)一个学习的信息的来源是其他“专家”agent的行为,正如用在模仿学习(imitation learning)和学徒学习(apprenticeship learning)中的一样。在这种设定下,通常假设观察的目的就是为了学习一个策略,比如说,一个从状态映射到行为的直接表示(direct representation)。相反,我们提出重新获得专家的reward function并使用它来生成理想的行为。我们建议reward function通常提供更为简洁的行为描述。毕竟,强化学习的整个领域都是建立在这样一个假设之上,即reward function而不是策略是对任务最简洁、鲁棒和可转移的定义。 因此,在某些领域,这看起来好像逆强化学习提供了一个学徒学习(apprenticeship learning)的高效形式。

据我们所知,这个计算任务还没有被计算机科学、控制理论、心理学或者生物学深入的研究过。最接近的一个工作是在经济学中,其中对多属性效用评估的任务进行了深入的研究——也就是说,一个人在做出决定时实际上如何结合每个可用选择的各种属性。这个理论被很好地发展了,并且应用广泛。然而,该领域仅研究采取单一行动且结果立刻可见的一次性决策。序列化的情形第一次被Sargent考虑,他通过检查公司一段时间内的雇佣行为来确定劳动力的有效雇佣成本。在过去的几十年中,计量经济学中马尔可夫决策过程的结构化估计得到了迅速的发展。一些基本的想法延续到我们的设置中。IRL也在控制理论中简短出现过:在20世纪60年代早期,Kalman提出了具有二次成本的确定性线性系统的目标函数的恢复问题。这在最近被当作一个半正定程序来解决了。

在这篇文章中,我们从有限状态的马尔可夫决策过程(Markov decision processes, MDPs)开始,在机器学习社区更熟悉的环境中解决IRL问题。Section 2给出了MDPs和IRL问题的正式定义;我们集中在模型是已知的和给出了完整策略的初始设置的情况下。Section 3刻画了给定最优策略的所有reward function的集合。我们模拟这个集合包含很多退化(degenerate)的solution,例如,包括在任何地方都是0的reward function。我们通过启发式的尝试选择能够最大程度的区分观察到的策略和其他次优策略的reward function来解决这个难点。这个在离散的情况下,可以通过使用线性规划高效地解决。Section 4解决很大的或者无限状态空间的情形,在这种情况下,显式的、表格型的reward function是不可行的。我们证明了如果合适的reward function被表示为任意的、固定的基函数的线性组合,那么IRL问题仍然处于线性规划的分类中而且可以被高效的解决。Section 5处理更加实际的问题,那就是策略只能通过一个有限的可被观察的轨迹的集合来知道,对于这个,我们提出了一个简单的迭代算法。在Section 6, 这三个我们提出的算法被应用在一些简单的样例中,包含离散和连续的随机导航问题,以及“mountain-car”问题。在所有的情形中,我们都能够恢复一个能够很好地解释被观察到的行为的reward function。最后,Section 7总结了我们的发现和描述了未来工作的一个方向。

Notation and Problem Formulation

在这个section中,我们介绍了马尔可夫决策过程的一些符号,定义和基本理论。随后,我们定义了我们将解决的IRL问题。

Markov Decision Processes

A (finite) MDP is a tuple ( S , A , { P s a , γ , R } ) (S,A,\{P_{sa}, \gamma, R\}) (S,A,{Psa,γ,R}), where

  • S S S is a finite set of N N N states.
  • A = { a 1 , . . . , a k } A=\{a_1, ...,a_k\} A={a1,...,ak} is a set of k k k actions.
  • P s a ( . ) P_{sa}(.) Psa(.) are the state transition probabilities upon taking action a a a in state s s s.
  • γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ[0,1) is the discount factor.
  • R : S → R R:S\rightarrow \mathbb{R} R:SR is the reinforcement function bounded in absolute value by R m a x R_{max} Rmax.

为了说明的简洁性,我们将reward写成 R ( s ) R(s) R(s)而不是 R ( s , a ) R(s,a) R(s,a)

一个策略(policy)被定义为任意的一个映射 π : S → A \pi:S\rightarrow A π:SA, 并且对于一个策略 π \pi π的价值函数,在任意状态 s 1 s_1 s1的评估形式为:

V π ( s 1 ) = E [ R ( s 1 ) + γ R ( s 2 ) + γ 2 R ( s 3 ) + . . . ∣ π ] V^{\pi}(s_1)=E[R(s_1)+\gamma R(s_2)+\gamma^2 R(s_3)+...|\pi] Vπ(s1)=E[R(s1)+γR(s2)+γ2R(s3)+...π]

其中期望是在状态序列 ( s 1 , s 2 , . . . ) (s_1, s_2,...) (s1,s2,...)的分布上计算的,而状态序列是从状态 s 1 s_1 s1开始执行策略 π \pi π获得的。我们同样也定义了Q-function,如下所示:

Q π ( s , a ) = R ( s ) + γ E s ′ ∼ P s a ( . ) [ V π ( s ′ ) ] Q^{\pi}(s,a)=R(s)+\gamma E_{s'\sim P_{sa}(.)}[V^{\pi}(s')] Qπ(s,a)=R(s)+γEsPsa(.)[Vπ(s)]

(其中这个符号 s ′ ∼ P s a ( . ) s'\sim P_{sa}(.) sPsa(.)表示期望是关于根据 P s a ( . ) P_{sa}(.) Psa(.)分布的 s ′ s' s的期望。)最优的价值函数是 V ∗ ( s ) = sup ⁡ π V π ( s ) V^{*}(s)=\sup_{\pi} V^{\pi}(s) V(s)=supπVπ(s),并且最优的Q-function 是 Q ∗ ( s , a ) = sup ⁡ π Q π ( s , a ) Q^{*}(s,a)=\sup_{\pi}Q^{\pi}(s,a) Q(s,a)=supπQπ(s,a)

对于离散、有限的空间,所有这些函数都可以表示为以状态为索引的向量,向量我们采用粗体表示法。更精确的是,将有限状态空间固定为从1到 N N N的枚举。这个reward可以被写成一个 N N N维向量** R R R**, 其中第 i i i个元素就是马尔可夫过程的第 i i i个状态。相似的, V π V^{\pi} Vπ是一个向量,它的第 i i i个元素就是价值函数使用策略 π \pi π对第 i i i个状态的评估。对于每一个动作 a a a,我们也让 P a P_a Pa表示一个 N × N N\times N N×N的矩阵,其中元素 ( i , j ) (i,j) (i,j)表示从状态 i i i采取动作 a a a转移到状态 j j j的概率。最后,我们让符号 ≺ \prec ⪯ \preceq 表示严格和不严格的向量不等性,比如, x ≺ y x\prec y xy当且仅当 ∀ i , x i < y i \forall i, x_i <y_i i,xi<yi

标准强化学习的目标是找出一个策略 π \pi π使得 V π ( s ) V^{\pi}(s) Vπ(s)最大化。可以被证明的是存在至少一个最优策略 π ∗ \pi^* π使得 V π ( s ) V^{\pi}(s) Vπ(s) π = π ∗ \pi = \pi^* π=π时对所有的状态 s ∈ S s \in S sS同时取得最优。

Basic Properties of MDPs

为了解决IRL问题,我们需要两个关于MDP的经典结论。

定理一:(Bellman Equations) 给定一个马尔可夫决策过程 M = { S , A , { P s a } , γ , R } M=\{S,A, \{P_{sa}\},\gamma, R \} M={S,A,{Psa},γ,R}和一个策略 π : S → A \pi:S \rightarrow A π:SA。那么,对于所有的 s ∈ S , a ∈ A s \in S, a\in A sS,aA V π V^\pi Vπ Q π Q^{\pi} Qπ符合

V π ( s ) = R ( s ) + γ ∑ s ′ P s π ( s ) ( s ′ ) V π ( s ′ ) (1) V^{\pi}(s)=R(s)+\gamma \sum_{s'}P_{s\pi(s)}(s')V^{\pi}(s') \tag{1} Vπ(s)=R(s)+γsPsπ(s)(s)Vπ(s)(1)

Q π ( s , a ) = R ( s ) + γ ∑ s ′ P s a ( s ′ ) V π ( s ′ ) (2) Q^{\pi}(s,a)=R(s)+\gamma \sum_{s'}P_{sa}(s')V^{\pi}(s') \tag{2} Qπ(s,a)=R(s)+γsPsa(s)Vπ(s)(2)

定理二:(Bellman Optimality) 给定一个马尔可夫决策过程 M = { S , A , { P s a } , γ , R } M=\{S,A, \{P_{sa}\},\gamma, R \} M={S,A,{Psa},γ,R}和一个策略 π : S → A \pi:S \rightarrow A π:SA。那么 π \pi π是一个 M M M的最优策略当且仅当对于所有的 s ∈ S s\in S sS

π ( s ) ∈ arg ⁡ max ⁡ a ∈ A Q π ( s , a ) (3) \pi(s) \in \arg \max_{a\in A}Q^{\pi}(s,a) \tag{3} π(s)argaAmaxQπ(s,a)(3)

Inverse Reinforcement Learning

逆强化学习问题是找到一个能够解释观察到行为的reward function。我们从一个状态空间是有限的、模型是已知的、完整的策略是可被观察的简单例子开始。更准确的是,我们给定一个有限的状态空间 S S S,一个含有 k k k个动作的集合 A = { a 1 , . . . , a k } A=\{a_1, ...,a_k\} A={a1,...,ak}, 转移概率 { P s a } \{P_{sa}\} {Psa},一个衰减因子 γ \gamma γ和一个策略 π \pi π,我们希望能够找到一个可能的reward function R R R的集合使得策略 π \pi π是马尔可夫决策过程 { S , A , { P s a } , γ , R } \{S,A, \{P_{sa}\},\gamma, R \} {S,A,{Psa},γ,R}中的最优策略。(然后我们可能希望在这个集合中识别满足额外标准的函数)通过在必要时重命名动作,我们将不失一般性地假设 π ( s ) ≡ a 1 \pi(s)\equiv a_1 π(s)a1。这个技巧只是用来简化我们的符号表示。

IRL in Finite State Spaces

在这个Section,我们简单的刻画了一个能够让给定策略是最优的reward function的集合。我们随后证明了这个集合包含很多退化(degenerate)的solutions,并且提出了一个简单的启发式方法来移除这些退化 (degeneracy),导致了IRL问题的线性规划解决方案。

Characterization of the Solution Set

我们刻画这个solution集合的主要结果如下所示:

定理三: 给定一个有限状态空间 S S S, 一个动作集合 A = { a 1 , . . . , a k } A=\{a_1,...,a_k\} A={a1,...,ak},转移概率矩阵 { P a } \{\mathbf{P}_a\} {Pa}和一个衰减因子 γ ∈ ( 0 , 1 ) \gamma\in (0,1) γ(0,1)。给定 π ( s ) ≡ a 1 \pi (s)\equiv a_1 π(s)a1, 这个策略 π \pi π是最优的当且仅当对所有的动作 a = a 2 , . . , a k a=a_2,..,a_k a=a2,..,ak, reward R R R满足

( P a 1 − P a ) ( I − γ P a 1 ) − 1 R ⪰ 0 (4) (\mathbf{P}_{a_1}-\mathbf{P}_a)(\mathbf{I}-\gamma \mathbf{P}_{a_1})^{-1}\mathbf{R} \succeq 0 \tag{4} (Pa1Pa)(IγPa1)1R0(4)

证明: Since π ( s ) ≡ a 1 \pi(s)\equiv a_1 π(s)a1, Equation (1) may be writtern V π = R + γ P a 1 V π \mathbf{V}^{\pi}=\mathbf{R}+\gamma \mathbf{P}_{a_1}\mathbf{V}^{\pi} Vπ=R+γPa1Vπ. Thus,

V π = ( I − γ P a 1 ) − 1 R (5) \mathbf{V}^{\pi} = (\mathbf{I}-\gamma \mathbf{P}_{a_1})^{-1}\mathbf{R} \tag{5} Vπ=(IγPa1)1R(5)

Substituting Equation (2) into (3) from Therorem 2. we see that π ≡ a 1 \pi \equiv a_1 πa1 is optimal if and only if

a 1 ≡ π ( s ) ∈ arg ⁡ max ⁡ a ∈ A ∑ s ′ P s a ( s ′ ) V π ( s ′ )   ∀ s ∈ S a_1 \equiv \pi(s) \in \arg \max_{a \in A} \sum_{s'}P_{sa}(s')V^{\pi}(s')\ \forall s\in S a1π(s)argaAmaxsPsa(s)Vπ(s) sS
⇔ ∑ s ′ P s a 1 ( s ′ ) V π ( s ′ ) ≥ ∑ s ′ P s a ( s ′ ) V π ( s ′ )   ∀ s ∈ S , a ∈ A \Leftrightarrow \sum_{s'}P_{sa_1}(s')V^{\pi}(s') \geq \sum_{s'}P_{sa}(s')V^{\pi}(s')\ \forall s\in S, a\in A sPsa1(s)Vπ(s)sPsa(s)Vπ(s) sS,aA

⇔ P a 1 V π ⪰ P a V π   ∀ a ∈ A ∖ a 1 \Leftrightarrow \mathbf{P}_{a_1}\mathbf{V}^{\pi} \succeq \mathbf{P}_a\mathbf{V}^\pi\ \forall a \in A\setminus a_1 Pa1VπPaVπ aAa1

⇔ P a 1 ( I − γ P a 1 ) − 1 R ⪰ P a ( I − γ P a 1 ) − 1 R \Leftrightarrow \mathbf{P}_{a_1}(\mathbf{I}-\gamma \mathbf{P}_{a_1})^{-1}\mathbf{R} \succeq \mathbf{P}_{a}(\mathbf{I}-\gamma \mathbf{P}_{a_1})^{-1}\mathbf{R} Pa1(IγPa1)1RPa(IγPa1)1R

where the last implication in this derivation used Equation (5). This cp,pletes the proof.

注: Here, I − γ P a 1 \mathbf{I}-\gamma \mathbf{P}_{a_1} IγPa1 is always invertible. To see this, first note that P a 1 \mathbf{P}_{a_1} Pa1, being a transition matrix, has all eigenvalues in the unit circle in the complex plane. Since γ < 1 \gamma < 1 γ<1, the implies that matrix γ P a 1 \gamma \mathbf{P}_{a_1} γPa1 has all eigenvalues in the interior of the unit circle (and in particular that 1 is not an eigenvalue). This means I − γ P a 1 \mathbf{I}-\gamma \mathbf{P}_{a_1} IγPa1 has no zero eigenvalues, and is thus not sigular.

Remark: 使用非常相似的证明方法,很容易可以证明(本质上是用严格的不等式替换上面证明中的所有不等式)条件 ( P a 1 − P ( a ) ) ( I − γ P a 1 ) − 1 R ≻ 0 (\mathbf{P}_{a_1}-\mathbf{P}(a))(\mathbf{I}-\gamma \mathbf{P}_{a_1})^{-1}\mathbf{R} \succ 0 (Pa1P(a))(IγPa1)1R0是结论 π ≡ a 1 \pi \equiv a_1 πa1成为唯一最优策略的必要充分条件。

对于有限状态的马尔可夫决策过程,这个结论描述了所有的reinforcement function集合都是逆强化学习问题的solution。然而,我们也立刻看到了两个问题:首先, R = 0 \mathbf{R}=0 R=0(甚至任何其他的常数向量)都是一个solution——如果无论我们采取什么动作reward都相同,那么任何策略包括 π ≡ a 1 \pi \equiv a_1 πa1都是最优的。要求 π \pi π是唯一的最优策略将缓解这个问题,但是并不完全令人满意,因为通常一些任意接近0的reward vector仍然是solution。第二个,对于大多数的马尔可夫决策过程,这看起来好像仍然还是有很多对于 R \mathbf{R} R的选择符合criteria (4)。我们怎样从这么多reinforcement functions中选择一个?这个答案不会从原始的IRL问题的陈述中找到,但是在下一个Section,我们描述了一些可以对这两个问题的solution提供建议的自然标准 (natural criteria)。

LP Formulation and Penalty Terms

显然,线性规划可以被用来找满足方程 (4)约束的可行点,但是正如前面Section讨论的那样,其中一些点可能不如其他点“有意义”,因此,我们希望能够找到一些方式在这些满足方程 (4)的solution中进行选择。在很大程度上我们选择了在这个Section中的建议,因为它们可以被整合到线性规划中,但是尽管如此,他们看起来还是很自然。

一个自然方式来选择 R R R首先要求它能够使策略 π \pi π最优(因此能够解决IRL问题),此外,更加倾向于使任何单步偏离 π \pi π的成本尽可能高的solution。因此,对于所有能够满足 (4)的函数 R R R (and ∣ R ( s ) ∣ ≤ R max ⁡ ∀ s |R(s)| \leq R_{\max} \forall s R(s)Rmaxs),我们可能会选着使得下式最大的那个

∑ s ∈ S ( Q π ( s , a 1 ) − max ⁡ a ∈ A ∖ a 1 Q π ( s , a ) ) (6) \sum_{s\in S}(Q^{\pi}(s,a_1)-\max_{a\in A \setminus a_1}Q^{\pi}(s,a)) \tag{6} sS(Qπ(s,a1)aAa1maxQπ(s,a))(6)

换句话说,我们寻求最好动作和第二好动作的差的和的最大化。(其他标准,比如说 ∑ s ∈ S ∑ a ∈ A ∖ a 1 Q π ( s , a 1 ) − Q π ( s , a ) \sum_{s\in S}\sum_{a\in A\setminus a_1} Q^{\pi}(s,a_1)-Q^{\pi}(s,a) sSaAa1Qπ(s,a1)Qπ(s,a)也是可能的,但是为了具体化,让我们暂时停留在(6)上)

此外,如果我们相信,在所有其他条件相同的情况下,以小reward为主的solution会更简单,因此更可取。我们可以选择性地在目标函数中添加一个类似权重衰减的惩罚项,比如 − λ ∣ ∣ R ∣ ∣ 1 -\lambda ||R||_1 λR1, 其中 λ \lambda λ是一个可调整的惩罚系数,用来平衡想要小的reinforcement和最大化 (6)这个两个目标。使用比如 l 1 l_1 l1惩罚项的副作用是:对于足够大的 λ \lambda λ R R R 只有在少数几个状态是非零项,这个与我们的想法“简单的reward function”相一致。此外,虽然在许多应用中手动调整惩罚系数是常见的作法,这可以被看出(假设solution在 λ = 0 \lambda =0 λ=0处没有退化 (degenerate))随着$\lambda 增 加 , 在 某 点 增加,在某点 \lambda_0 会 发 生 p h a s e 的 转 移 , 使 得 对 于 会发生phase的转移,使得对于 phase使\lambda < \lambda_0 , 最 优 , 最优 ,R 远 离 0 , 对 于 远离0,对于 0\lambda >\lambda_0, R=0 。 因 此 , 如 果 我 们 想 自 动 的 选 择 。因此,如果我们想自动的选择 \lambda , , \lambda =\lambda_0^- ( p h a s e 刚 刚 发 生 转 移 之 前 的 值 , 可 能 可 以 通 过 对 (phase刚刚发生转移之前的值,可能可以通过对 phase\lambda 的 二 分 查 找 得 到 ) 将 会 是 一 个 吸 引 人 的 选 择 , 因 为 它 给 出 了 一 个 最 简 单 的 的二分查找得到)将会是一个吸引人的选择,因为它给出了一个最简单的 R ( 最 大 的 惩 罚 系 数 ) 使 得 (最大的惩罚系数)使得 使R 不 会 在 任 何 地 方 都 为 0 ( 而 且 可 以 使 得 不会在任何地方都为0(而且可以使得 0使R 至 少 能 够 部 分 地 解 释 为 什 么 至少能够部分地解释为什么 \pi$是最优的)。

将这些放在一起,我们的优化问题变为:

m a x i m i z e   ∑ i = 1 N min ⁡ a ∈ { a 2 , . . . , a k } ( P a 1 ( i ) − P a ( i ) ) ( I − γ P a 1 ) − 1 R − λ ∣ ∣ R ∣ ∣ 1 maximize\ \sum_{i=1}^{N} \min_{a\in\{a_2,...,a_k\}}(\mathbf{P}_{a_1}(i)-\mathbf{P}_{a}(i))(\mathbf{I}-\gamma \mathbf{P}_{a_1})^{-1}R-\lambda ||R||_1 maximize i=1Na{a2,...,ak}min(Pa1(i)Pa(i))(IγPa1)1RλR1

s . t .   ( P a 1 − P a ) ( I − γ P a 1 ) − 1 R ⪰ 0   ∀ s ∈ A ∖ a 1 s.t.\ (\mathbf{P}_{a_1}-\mathbf{P}_{a})(\mathbf{I}-\gamma\mathbf{P}_{a_1})^{-1}R \succeq 0\ \forall s \in A\setminus a_1 s.t. (Pa1Pa)(IγPa1)1R0 sAa1

∣ R ∣ ≤ R max ⁡ ,   i = 1 , . . . , N |\mathbf{R}|\leq R_{\max},\ i=1,...,N RRmax, i=1,...,N

其中 P a ( i ) \mathbf{P}_a(i) Pa(i)表示矩阵 P a \mathbf{P}_a Pa的第 i i i行。清楚地是,这个可以被很简单的建模成一个线性规划问题而且被很高效的解决。 (How to do?)

Linear Function Approximation in Large State Spaces

我们现在考虑状态空间是无限的情况。除了一些测度理论假设和次要规律性条件(我们将在这篇paper中忽略这些),无限状态 MDP 的定义方式与Section 2中的有限状态 MDP 的定义方式大致相同。为了具体起见,我们仅限于 S = R n S=R^n S=Rn的情况。我们将假设任何特定MDP的策略值 V π V^{\pi} Vπ都可以用一个子程序来近似。

在这种情况下,reward function R R R现在是一个从 S = R n S=\mathbb{R}^n S=Rn到实数的函数,而且逆强化学习的一般solution需要使用空间 R n → R \mathbb{R}^n \rightarrow R RnR内的所有函数。虽然变分法 (calculus of variations) 确实为我们提供了一些优化这个空间的工具,但在算法上使用它通常很困难。因此,我们选择对reward function使用线性近似,将 R R R表示为如下式子:

R ( s ) = α 1 ϕ 1 ( s ) + α 2 ϕ 2 ( s ) + . . . + α d ϕ d ( s ) (8) R(s)=\alpha_1 \phi_1(s)+\alpha_2 \phi_2(s)+...+\alpha_d \phi_d(s) \tag{8} R(s)=α1ϕ1(s)+α2ϕ2(s)+...+αdϕd(s)(8)

其中 ϕ 1 , ϕ 2 , . . . , ϕ d \phi_1,\phi_2,...,\phi_d ϕ1,ϕ2,...,ϕd是固定的、已知的、有界的从 S S S映射到 R \mathbb{R} R的基函数,而 α i \alpha_i αis 是我们想要找到的、未知的参数。

由于 R 在被优化的变量中再次是线性的,因此线性规划建模也适用于这里也就不足为奇了。当reward function是 R = ϕ i R=\phi_i R=ϕi时,让 V i π V^{\pi}_{i} Viπ表示在MDP中的策略 π \pi π的价值函数。通过期望的线性性质,当reward function R R R由方程 8 8 8给出时,价值函数为

V π = α 1 V 1 π + . . . + α d V d π (9) V^{\pi}=\alpha_{1}V_{1}^{\pi}+...+\alpha_{d}V_{d}^{\pi} \tag{9} Vπ=α1V1π+...+αdVdπ(9)

使用这个事实和定理二,读者可以很容易证明(本质上使用定理三中的证明方式)对于 R R R使策略 π ( s ) ≡ a 1 \pi(s )\equiv a_1 π(s)a1最优,方程 4 4 4 的适当泛化条件是对于所有的状态 s s s和所有的动作 s ∈ A ∖ a 1 s \in A\setminus a_1 sAa1

E s ′ ∼ P s a 1 [ V π ( s ′ ) ] ≥ E s ′ ∼ P s a [ V π ( s ′ ) ] (10) E_{s'\sim P_{sa_1}}[V^{\pi}(s')] \geq E_{s' \sim P_{sa}}[V^{\pi}(s')] \tag{10} EsPsa1[Vπ(s)]EsPsa[Vπ(s)](10)

从方程 ( 9 ) (9) (9),我们可以知道 V π ( s ) V^{\pi}(s) Vπ(s)是系数 α i \alpha_i αi 的线性组合。然而,在当前的建模中有两个问题。第一个是对于无限的状态空间,方程 ( 10 ) (10) (10)中的形式有无穷多个约束,使得很难或者说不可能将他们一一检查。在算法上,我们通过仅对状态进行采样得到一个大的但是有限的子集 S 0 S_0 S0, 并仅在这些状态 s ∈ S 0 s \in S_0 sS0上使用这个约束来规避此问题。第二个问题是更微妙的问题,因为我们限制自己使用方程 ( 8 ) (8) (8)中的线性函数逼近器来表达 R R R,我们可能不再能够表达 π \pi π是最优的其他任何reward function(除了平凡的 R = 0 R=0 R=0)。尽管如此,即使在这种情况下,我们也希望尽可能使用线性函数逼近器,因此作为妥协,我们愿意放宽一些约束 ( 10 ) (10) (10),在它们被违反的情况下付出代价。

我们最终的线性规划模型如下:

m a x i m i z e   ∑ s ∈ S 0 min ⁡ a ∈ { a 2 , . . . , a k } { p ( E s ′ ∼ P s a 1 [ V π ( s ′ ) ] − E − s ′ ∼ P s a [ V π ( s ′ ) ] ) } maximize\ \sum_{s\in S_0} \min_{a \in \{a_2, ...,a_k\}}\{p(E_{s'\sim P_{sa_1}}[V^{\pi}(s')]-E-{s'\sim P_{sa}}[V^{\pi}(s')])\} maximize sS0a{a2,...,ak}min{p(EsPsa1[Vπ(s)]EsPsa[Vπ(s)])}

s . t . ∣ α i ∣ ≤ 1. i = 1 , . . . , d s.t. |\alpha_i| \leq 1. i=1,...,d s.t.αi1.i=1,...,d

其中 V π V^{\pi} Vπ是在方程 ( 9 ) (9) (9)中给出的关于 α i \alpha_i αis的隐式函数,并且 S 0 S_0 S0是重采样的状态。Here, p p p is given by p ( x ) = x p(x)=x p(x)=x if x ≥ 0 x\geq 0 x0, p ( x ) = 2 x p(x)=2x p(x)=2x otherwise. 以及惩罚对约束(10)的违反(其中2是启发式选择的惩罚权重;这是一个似乎对我们的结果不是很敏感的参数,对于适度较大的值通常给出非常相似的结果。)

IRL from Sampled Trajectories

这个Section解决在更真实情况下的IRL问题,就是我们只能通过在状态空间的真实轨迹来访问策略 π \pi π。对于这个,尽管我们确实假设有能力在我们选择的奖励下找到最佳策略,但是我们不需要MDP的显式模型。

我们固定一些初始状态分布 D D D,并且假设对于(未知的)策略 π \pi π, 我们的目标就是找到 R R R使得 π \pi π能够最大化 E s 0 ∼ D [ V π ( s 0 ) ] E_{s_0\sim D}[V^{\pi}(s_0)] Es0D[Vπ(s0)]。为了简化符号表示,我们将假设只有一个固定的初始状态 s 0 s_0 s0。(这实际上不失一般性,因为 s 0 s_0 s0可以是一个“虚拟状态”,其在任何动作下的下一个状态分布式 D D D。)与之前在无限状态空间的算法一样,我们假设可以使用线性函数家族来表示 R R R

我们假设我们有能力在最优策略或者其他我们选择的策略下在MDP中模拟轨迹 (从初始状态 s 0 s_0 s0开始)。对于每一个我们将会考虑的策略 π \pi π(包括最优的策略),我们需要一种方法来估计任何任何 α i \alpha_i αis设置的 V π ( s 0 ) V^{\pi}(s_0) Vπ(s0)。为了做这个,我们首先执行 m m m次在策略 π \pi π下的蒙特卡洛轨迹。然后,对于每个 i = 1 , . . . , d i=1,...,d i=1,...,d,将 V ^ i π ( s 0 ) \hat{V}_i^{\pi}(s_0) V^iπ(s0)定义为如果奖励为 R = ϕ i R=\phi_i R=ϕi,则在这 m m m条轨迹上的平均经验回报。比如,如果我们只采样 m = 1 m=1 m=1条轨迹,并且如果轨迹访问的状态序列为 ( s 0 , s 1 , . . . ) (s_0,s_1,...) (s0,s1,...),那么我们将会有

V ^ i π ( s 0 ) = ϕ i ( s 0 ) + γ ϕ i ( s 1 ) + γ 2 ϕ i ( s 2 ) + . . . \hat{V}_{i}^{\pi}(s_0)=\phi_i(s_0)+\gamma \phi_{i}(s_1)+\gamma^2 \phi_{i}(s_2)+... V^iπ(s0)=ϕi(s0)+γϕi(s1)+γ2ϕi(s2)+...

一般来说, V ^ i π ( s 0 ) \hat{V}_{i}^{\pi}(s_0) V^iπ(s0)会是 m m m条轨迹的平均经验回报。那么,对于 a i a_i ais的任何设置,一个对 V π ( s 0 ) V^{\pi}(s_0) Vπ(s0)自然的估计就是

V ^ π ( s 0 ) = α 1 V ^ 1 π ( s 0 ) + . . . + α d V ^ d π ( s 0 ) (11) \hat{V}^{\pi}(s_0)=\alpha_1\hat{V}_{1}^{\pi}(s_0)+...+\alpha_d\hat{V}_{d}^{\pi}(s_0) \tag{11} V^π(s0)=α1V^1π(s0)+...+αdV^dπ(s0)(11)

与之前的算法推导一样,这是由以下的事实证明的: V π ( s 0 ) = α 1 V 1 π ( s 0 ) + . . . + α d V d π ( s 0 ) V^{\pi}(s_0)=\alpha_1V_{1}^{\pi}(s_0)+...+\alpha_dV_{d}^{\pi}(s_0) Vπ(s0)=α1V1π(s0)+...+αdVdπ(s0)。我们现在描述整个算法流程。

  1. To start off the algorithm, we first find value estimates as described above for the (assumed optimal) poicy π ∗ \pi^* π that we are given, and for the “base case” policy π 1 \pi_1 π1, which is in our case a randomly chosen policy.

  2. The “inductive step” of the algorithm is as follows: We have some set of policies { π 1 , . . . , π k } \{\pi_1,...,\pi_k\} {π1,...,πk}, and want to find a setting of the α i \alpha_i αis so that the resulting reward function (hopefully) satisfies

    V π ∗ ( s 0 ) ≥ V π i ( s 0 ) ,   i = 1 , . . . , k (12) V^{\pi^*}(s_0)\geq V^{\pi_i}(s_0),\ i=1,...,k \tag{12} Vπ(s0)Vπi(s0), i=1,...,k(12)

正如之前的算法一样,我们稍微地对目标函数进行了修改,所以优化目标变为

m a x i m i z e ∑ i = 1 k p ( V ^ π ∗ ( s 0 ) − V ^ π i ( s 0 ) ) maximize \sum_{i=1}^{k}p(\hat{V}^{\pi^*}(s_0)-\hat{V}^{\pi_i}(s_0)) maximizei=1kp(V^π(s0)V^πi(s0))

s . t . ∣ α i ∣ ≤ 1 ,   i = 1 , . . . , d s.t. |\alpha_i| \leq 1, \ i=1,...,d s.t.αi1, i=1,...,d

Here, p p p is given by p ( x ) = x p(x)=x p(x)=x if x ≥ 0 x\geq 0 x0, p ( x ) = 2 x p(x)=2x p(x)=2x otherwise. 以及惩罚对约束(10)的违反(其中2是启发式选择的惩罚权重;这是一个似乎对我们的结果不是很敏感的参数)。注意到上面的 V ^ π i ( s 0 ) \hat{V}^{\pi_i}(s_0) V^πi(s0) V ^ π ∗ ( s 0 ) \hat{V}^{\pi^*}(s_0) V^π(s0)仅仅是方程(11)给出的 α i \alpha_i αis的隐式线性函数,因此这个问题可以通过线性规划被很容易的解决。

The above optimization gives a new setting of the α i \alpha_i αis and hence a new reward function R = α 1 ϕ 1 + . . . + α d ϕ d R=\alpha_1\phi_1+...+\alpha_d\phi_d R=α1ϕ1+...+αdϕd.

We then find a policy π k + 1 \pi_{k+1} πk+1 that maximizes V π ( s 0 ) V^{\pi}(s_0) Vπ(s0) under R R R, add π k + 1 \pi_{k+1} πk+1 to the current set of policies, and continue (for some large number of iterations, until we find an R R R with whihc we are “satisfied”).

实验部分

Apply the sample-based algorithm to a continous version of the 5 × 5 5\times 5 5×5 grid world

  • The state was [ 0 , 1 ] × [ 0 , 1 ] [0,1] \times [0,1] [0,1]×[0,1]
  • The effect of each of the four compass-direction actioms is to move the agent 0.2 in the intended direction, after which uniform noise in [ − 0.1 , 0.1 ] [-0.1, 0.1] [0.1,0.1] is added to each coordinate, and the state is finally truncated if necessary to keep it within the unit square.
  • The true reward was 1 1 1 in the (non-absorbing) square [ 0.8 , 1 ] × [ 0.8 , 1 ] [0.8, 1] \times [0.8, 1] [0.8,1]×[0.8,1], and 0 0 0 everywhere else, and γ = 0.9 \gamma =0.9 γ=0.9.
  • The function approximator class consisted of all linear combinations of a 15 × 15 15 \times 15 15×15 array of two-dimensional Gaussian basic functions.
  • The initial state distribution D D D was uniform over the state space, and pur algorithm was run using m = 5000 m=5000 m=5000 trajectories, each of 30 30 30 steps, to evaluate each policy.
  • When needed (such as to find the “opyimal” policy for comparison). the MDP was solved based on a 50 × 50 50 \times 50 50×50 discretization of the state space.

参考文献

[1] Ng, A.Y., and Russell, S.J.: ‘Algorithms for inverse reinforcement learning’, in Editor (Ed.)^(Eds.): ‘Book Algorithms for inverse reinforcement learning’ (2000, edn.), pp. 2

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值