原文:Hayes, Conor F., et al. “A practical guide to multi-objective reinforcement learning and planning.” arXiv preprint arXiv:2103.09568 (2021).
待解决:utility如何翻译合适,文中目前是效用。belief,concept如何翻译。
摘要
现实世界的决策任务通常很复杂,经常需要在多个相互冲突的目标之间进行权衡。尽管如此,大多数关于强化学习和决策理论规划方面研究要么只假设一个目标,要么假设多个目标可以通过简单的线性组合来处理。此类方法可能会过度简化潜在问题,从而产生次优结果。本文作为多目标方法在疑难问题上的应用指南,面向已经熟悉单目标强化学习和规划方法并希望采用多目标方法进行研究的研究人员,如以及在实践中遇到多目标决策问题的研究者。它确定了可能影响目标策略性能的因素,并举例说明这些因素如何影响复杂问题的多目标决策系统的设计。
1 引言
在大多数现实世界的决策问题中,我们关心的不仅仅是一个目标。 例如,如果我们有一个带有水力发电厂的水库,我们可能会关心最大限度地提高能源产量,同时最大限度地减少灌溉赤字以及最大限度地减少洪水风险 。在医学治疗中,我们可能希望最大限度地提高治疗效果,同时最大限度地减少各种副作用 。 换句话说,大多数现实世界的决策问题本质上都是多目标的。
虽然大多数决策问题实际上有多个目标,但大多数处理需要与决策问题交互的代理的算法都专注于优化单个目标 。尽管如此,为了处理现实世界的多个目标,一种常见方法是将所有重要的目标组合在一起,形成一个单一的、标量的、可加的奖励函数,这通常涉及为环境中可能发生的事件分配标量奖励或惩罚的迭代过程。例如,在水库设置中,我们可能会对发生的洪水施加较大的惩罚,对每个时间步的功率输出给予正奖励,并对未满足灌溉需求的每个时间步进行负奖励。然后,使用单目标学习方法,观察结果策略,如果行为不令人满意,则重新设计奖励函数。然后重复此迭代过程,直到研究者可以接受该策略。我们认为这中方法有几个问题:(a)它是一个半盲的手动过程,(b)它不利于决策者做出明智的权衡,为工程师理解决策问题增加了负担,(c)它损害了决策过程的可解释性,以及 (d) 它无法处理用户和决策者可能实际拥有的所有目标的偏好。最后,(e)目标之间的偏好可能会随着时间的推移而改变,当这种情况发生时,单目标代理将不得不重新训练或更新。
(a),如果我们通过迭代过程设计一个标量奖励函数直到我们达到可接受的策略,我们会尝试多个奖励函数,每个奖励函数都是实际目标的标量化。然而,我们没有系统地检查所有可能的奖励函数。换句话说,我们可能会满足可接受策略的最低阈值,但我们只观察到所有奖励函数可能的标量化的一个子集。因此,尽管可以找到可接受的策略,但它可能与最优策略相去甚远——如果我们能够系统地检查所有可能的解决方案,我们就会得到这种最优策略。这会自动将我们带到第二点 (b),由于奖励函数是需要预先设计的,我们只是猜测它的影响可能对策略有影响。例如,当尝试在电力生产系统中训练代理时,我们可能希望将平均电力输出加倍。然而,即使目标在奖励函数中是线性加权的,也不是仅仅将与绩效的功率输出方面相关的奖励加倍那么简单,因为奖励权重与实际目标结果之间的关系很可能是非线性 。另一方面,如果我们能够检查所有可能的最优策略以及它们在目标之间提供不同权衡的价值,我们就可以以明智的方式决定结果,而不是对结果进行有根据的猜测。当工程师创建标量奖励函数时,他们同时对实际决策者的偏好(例如,水库中的政府)做出假设,并对标量奖励函数的变化导致的行为变化进行猜测。这不是人工智能工程师的任务——至少在非常重要的决策问题中不是。
(c),标量奖励函数的另一个问题是缺乏(后验)可解释性 。 如果我们问“为什么机器人会与花瓶相撞并摧毁它?”,我们可以尝试输入一个替代动作,例如从花瓶旁转向。 例如,一个具有单一包罗万象目标的代理学习了一个标量价值函数,然后告诉我们其他策略的价值减少了 3.451,这几乎没有提供任何解释。(这段讲了啥不太理解)。如果相反,智能体可以告诉我们,如果损坏花瓶的目标概率下降到 0,但撞到宠物的目标概率会增加 0:5%(不同的目标),这将使我们深入了解出了什么问题。我们也可能出于不同的原因否定这种可能:我们可能认为智能体高估了与狗相撞的风险,这是该目标价值的错误估计。我们可能还会认为,相比较一定会撞到花瓶,撞到狗的可能性增加 0.5% 是可以接受的,因为机器人撞到狗可能会给狗带来不便,但是对它来说不是非常危险。这可能是由于我们对于不同结果的值函数的错误分配。换句话说,不采取明确的多目标方法不利于我们评估或理解我们的智能体可能需要的基本信息。
(d),并不是所有的人类偏好都可以通过标量加性奖励函数来处理 。当用户的偏好应该用非线性而不是线性效用函数建模时,对于强化学习框架,先验线性化在数学上是不可能的,因为线性化会破坏奖励函数的可加性。对于某些领域,如果由此导致的最优性损失可能不会产生重大影响,这可能仍然是可以接受的。然而,在伦理或道德问题变得明显的重要领域,单目标方法需要以许多人可能无法接受的方式将这些因素与其他目标(如经济成果)明确结合起来 。同样,对于我们希望确保多个参与者获得公平或公平结果的场景,由此设计单一目标奖励可能很困难。
(e),众所周知,人类会不时改变主意。 因此,不同目标的权衡之间的偏好可能会随着时间的推移而发生变化。 明确的多目标系统可以训练智能体能够处理此类偏好变化的情况,从而在发生偏好变化时尽快给出新策略。 这增加了多目标决策智能体的通用性,因为智能体不需要停止运行来更新策略,他们可以简单地切换策略以匹配新的用户偏好。 我们注意到,这种类型的变化不同于问题的非平稳动力学问题,后者可能出现在单目标和多目标问题中, 这里的多目标马尔可夫决策过程本身是平稳的,但外部偏好发生了变化。
到目前为止,我们希望我们已经让读者相信,采用明确的多目标方法进行规划和学习对于在决策问题中应用 AI 可能至关重要。为了提供进一步的动机,并展示建模多目标问题时可能出现的一些困难,我们将在第 2 节中提供此类多目标决策问题的示例。然后我们继续将对多目标问题进行建模(第 3 节)和推荐一种方法来系统地处理多目标决策问题,在整个过程中将用户的效用放在首位(第 4 节)。在第 5 节中,我们概述了从识别多目标决策问题到在实践中应用策略的过程中,应考虑哪些因素。我们描述了这些因素对这个过程和解决方案概念的影响。然后,我们描述了多目标决策问题和其他已知决策问题之间的关系(第 6 节),并简要综述现有算法(第 7 节)和评估多目标的策略的指标(第 8 节)。为了帮助研究人员开始该领域的工作,我们在第 9 节中包含了一个多目标决策问题的解决示例,一个具有多个目标的水管理问题,此外,我们添加了此实例的 Jupyter notebook 作为补充材料。最后,我们总结文章并在第 10 节讨论开放研究挑战。
2 使用多目标算法对复杂问题的建模示例
本章介绍了一些多目标建模示例,包括路径规划、水箱管理、军备购买、风场控制等问题,此章不翻译了,需要研究具体应用的可以参考本章引用的文献。
3 问题描述
MOMDP由一个六元组表示< S , A , T , γ , μ , R S,A,T,\gamma,\mu,\boldsymbol{R} S,A,T,γ,μ,R>:
- S S S 表示状态空间
- A A A 表示动作空间
- T T T 表示状态转移概率函数
- γ \gamma γ 表示折扣因子
- μ \mu μ 表示初始状态概率分布
- R \boldsymbol{R} R 表示向量化奖励函数,目标个数 d ⩾ 2 d\geqslant2 d⩾2
单目标 MDP 和 MOMDP 之间的关键区别是向量奖励函数 R \boldsymbol{R} R,它包括每个目标的奖励反馈,这意味着奖励向量的维度等于目标的数量 d d d。与单目标 MDP 一样, S S S和 A A A原则上可以是离散的和有限的。然而,在许多现实世界的问题中,一旦某些描述状态的状态变量是连续的,状态空间就可能是无限的。此外,即使状态空间是离散的,它通常也太大而无法枚举,因为状态可以使用图像来描述,例如自动驾驶汽车中的相机。动作空间的大小也可以是无限的。例如,在风电场控制中,动作对应于相对于传入风向的特定转子方向就是一个连续值。无限的状态和动作空间使问题求解变得困难,就需要使用函数逼近器来估计策略的价值。
策略和值函数
策略
π
\pi
π即,给定一个状态,根据一个固定的策略分布给出相应的动作。策略
π
\pi
π的值函数定义为
V
π
=
E
[
∑
k
=
0
∞
γ
k
r
k
+
1
∣
π
,
μ
]
.
\begin{aligned} \boldsymbol{V}^{\pi}=E[\sum_{k=0}^\infty\gamma^k\boldsymbol{r}_{k+1}|\pi,\mu]. \end{aligned}
Vπ=E[k=0∑∞γkrk+1∣π,μ].
对比单目标MDP,此处的值函数也是一个向量,维度为
d
d
d。同样定义状态
s
s
s在任意时刻
t
t
t的值函数为
V
π
(
s
)
=
E
[
∑
k
=
0
∞
γ
k
r
k
+
1
∣
π
,
s
t
=
s
]
.
\begin{aligned} \boldsymbol{V}^{\pi}(s)=E[\sum_{k=0}^\infty\gamma^k\boldsymbol{r}_{k+1}|\pi,s_t=s]. \end{aligned}
Vπ(s)=E[k=0∑∞γkrk+1∣π,st=s].
对于单目标MDP而言,两个策略的值函数大小可以明确比较。而在MOMDP问题中,不是如此。如果我们可以明确知道一个scalarisation function表示为
u
:
R
d
→
R
u:\mathbb{R}^d\to\mathbb{R}
u:Rd→R,可以将多目标值映射为标量值,即
V
u
π
=
u
(
V
π
)
.
\begin{aligned} V^\pi_u=u(V^\pi). \end{aligned}
Vuπ=u(Vπ).
那么这将使我们对策略进行总体排序,并将 MOMDP 简化为单目标决策问题。 然而,这并不总是如引言中所述的那样可能、可行或可取。我们在第 5.1 节中进一步说明这一点。
当解决多目标问题时,我们常常会遇到对于策略A在目标1上值函数大于策略B,在目标2上值函数小于策略B。因此,对于MOMDP,值函数只允许对策略空间进行部分排序,因此如果没有关于如何考虑或优先考虑目标以对策略进行排序的额外信息,则不可能确定最佳策略。请注意,本节中描述的策略制定仅允许静态策略,即我们仅以当前状态为条件。 虽然这对于完全可观察的单目标 MDP 来说可能就足够了,但 White [1982] 证明对于多目标任务,允许策略相对于当前状态是非平稳的(即,状态也与其他变量,例如先前收到的奖励总和有关)。
策略集
在单目标 RL 问题中,存在唯一的最优值
V
V
V ,并且可以有多个最优策略都能达到该最优值。 单目标强化学习的目标通常是学习最优策略,然而,在多目标情况下,如果没有关于用户效用的任何附加信息,则可以有多个可能的最优值向量 V。 因此,在考虑 MORL 问题的解决方案时,我们需要对可能的最优值向量和策略集进行考虑。 下面,我们介绍几个有用的定义,即undominated set / coverage set(CS) / Pareto Front (PF) / liner utility function / convex hull (CH) / convex coverage set (CCS) ,具体定义参照原文。
4 utility-based 方法
首先考虑用户效用是任何人工智能在决策问题中成功应用的关键。在多目标问题中,这一点尤为重要,因为用户效用的属性可能会彻底改变所需的策略、可用的方法,甚至在某些情况下决定了是否存在稳定的策略。根据最近关于多目标强化学习的文献,我们因此介绍了一些utility-based方法。
utility-based方法与早期的axiomatic方法形成对比。在axiomatic方法中,多目标决策问题的最优解集被假定为帕累托前沿(Pareto Front)。然而,这个集合通常太大,并且难以检索。此外,Vamplew 等人表明,如果允许使用随机策略,一个小得多的解决方案集就足以构建帕累托前沿,即,我们可以在确定性平稳凸覆盖集 (CCS) 中的策略之间使用随机混合,这更容易计算,并允许算法利用 CCS 的属性来检索最佳策略,例如外循环方法( 7.2.3 )。此外,在实际应用中,由于领域知识,可能会更多地了解用户的效用函数。使用axiomatic方法将难以利用这些知识,并且可能会花费大量时间和精力来计算近似解,该近似解包含具有非常低效用的解。
基于效用的方法旨利用关于用户效用函数的可用知识以及允许哪些类型的策略中得出最佳策略集。这种知识允许对策略集施加约束,减少集合大小,从而提高学习效率,并使用户或系统更容易选择他们的首选策略。 基于效用的方法需要以下步骤:
- 收集有关用户效用的所有先验可用信息。
- 决定允许哪种类型的策略(例如,随机性的或确定性的)。
- 从前两点的信息中推导出最优解的concept(概念?)。
- 选择或设计适合的 MORL 算法。 第 7 节回顾了适用于不同解集的concept的各种算法。
- 当解集需要多个策略时,设计一种方法,让用户在这些最优策略中选择所需的策略。
在此过程中要完成的每个步骤中,都会有不同的影响因素。 我们将简要讨论在每个步骤中必须考虑哪些因素,同时参考后面的部分进行更详细的讨论。
在第 1 步中,我们的目标是尽可能多地收集有关用户偏好的先验可用信息。 这些信息将帮助我们确定应该使用的效用函数类别。 例如,如果我们知道所有目标都对应于我们需要在公开市场上买卖的商品单位,那么效用函数通常是线性的(即每个商品价格的总和乘以我们买卖的单位数量)。
另一个关键区别是推导用户的效用的应用效用函数。具体来说,如果效用来自执行策略的单个结果,我们需要将效用函数应用于回报,然后优化回报的预期效用。 这就是所谓的Expected Scalarised Return (ESR) 标准。 例如,在医疗计划环境中,患者将从他们的治疗结果中获得效用。 相反,如果效用来自多个回合的平均回报,我们应该首先取期望值,并优化预期回报的效用。 这称为Scalarised Expected Return (SER) 标准。关于是否应用 ESR 或 SER 的详细讨论,请参阅第 5.3 节。
在步骤 2 中,我们需要决定允许哪些类型的策略。 这很重要,因为与单目标问题相比,在多目标问题中,随机策略可以严格优于确定性策略(此处不太理解)。 但是,这并不意味着我们应该始终使用随机策略。 例如,在医疗计划环境中,患者可能会反对随机选择不同的药物。 此外,我们需要决定是否允许非平稳策略]。 有关策略类型的详细讨论,请参阅第 5.2.3 节。
使用步骤 1 和 2 中的信息,我们需要推导出适当的策略concept。 例如,如果效用函数在学习时未知,但已知是线性的,则允许任何类型的策略。 我们需要一组策略,其中至少包含针对每组可能的线性权重的一个最优策略。这种情况的一个例子是线性权重对应于不同商品的波动市场价格。
在步骤 4 中,我们需要从文献中选择现有算法或设计适合用户要求的算法。 算法的选择取决于步骤 3 中选择的策略concept, 主要区别之一是单策略和多策略算法(参见第 7.2 节)。 如果用户效用函数完全先验已知并且不太可能随时间改变,则单策略算法是合适的。 相反,如果效用函数未知或可能发生变化,则多策略算法更合适。
在步骤 5 中,目标是帮助用户从由步骤 4 中选择的算法生成的策略集中选择策略,该策略尽可能接近最佳用户效用。 如果该集合足够小以向用户显示所有可能的策略值向量,则这可能相对简单。 如果集合很大,甚至是连续的,则需要更复杂的方法。 例如,Zintgraf 等使用高斯过程对效用函数进行建模,并使用向用户提出的相对偏好查询来训练该模型。 此外,他们使用目标先验和附加(虚拟)数据来利用多目标决策问题中的效用函数在所有目标中都是单调的这一事实。
这些步骤共同构成了一个完整的流程,以建立一个多目标强化学习系统。
5 重要因素
本章暂时不想翻了!
6 相关领域
POMDP
1980 年代已经做出的一个关键观察是,如果假设线性效用函数,则 POMDP 是 MOMDP 的superclass(咋翻?)。想象一下会有一个“真正的目标”,效用函数的线性权重将形成对真正目标的“belief”。 这是一种特殊类型的 POMDP,永远不会得知“真正目标”是什么——因为毕竟它实际上并不存在。
当然,多目标问题和POMDP有明显不同的解释。然而,POMDPs 在线性效用下形成MOMDP的superclass这一事实对研究者具有重要意义。首先,许多理论特性都继承自 POMDP。这意味着对于线性效用下的 MOMDP,许多定理不必重新证明。因此,如果您想知道某个属性是否成立,也最好参考 POMDP 文献。其次,这意味着最初为 POMDP 发明的方法通常可以适用于 MOMDP。这样做时,关键是要注意 MOMDP 中的目标数量对应于 POMDP 中的状态数量(即belief和 α \alpha α-vector的维数)。这意味着在 POMDP 中由于在状态数量上的扩展性很差而导致效果不佳的方法,在 MOMDP 中可能非常有用。一个很好的例子是Optimistic Linear Support (OLS),它基于 Cheng 对 POMDP 的Linear Support。最后,这可能意味着一些算法改进可能同时适用于 MOMDP 和 POMDP。
Multi-objective as multi-agent problems
目标不是智能体,但altruistic(咋翻?)智能体可以视其他智能体为目标。
Multi- and auxiliary task RL
最近在 RL 领域中引起关注的一个高度相关的问题是辅助任务和多任务 RL。例如,School 等人定义了多个目标(goal),这些目标通常是状态的一个子集。然后他们学习一个通用价值函数逼近 (UVFA) 网络,该网络学习与这些不同目标相关的价值。因此,从 MORL 的角度来看,UVFA 是 MORL 的一个实例,其限制是目标与状态密切相关,并且在某一时刻,效用函数可能只选择了这些目标中的一个目标。为了转移到更一般的 MORL 情况,目标应该推广到特定的先验已知(参数化)效用函数,这样目标(即每个目标的重要性)和状态之间没有明确的关系。这将是多策略设置中的一个问题,因为 (a) 不清楚需要多少特定的效用函数,以及 (b) 不支持非线性效用函数。对于具有线性效用函数的动态权重设置,UVFA 已作为基线算法适用于 MORL 场景 [Abels ,2019],实验结果表示其比特定的 MORL 算法差,但比更简单的基线算法更好。
在关于后继特征(SF)的工作中,Barreto 等人将标量奖励分解为状态特征和任务权重的乘积,以实现任务之间的迁移学习。同样,我们观察到后继特征实际上是具有线性权重的多目标问题的一个子类,即目标可以与理想的状态特征相关联。 Universal Successor Features Approximators [Borsa et al., 2019] 和 Universal Successor Representations [Ma et al., 2018] 结合了 SF 和 UVFA 的优点,以进一步概括目标。需要注意的是,虽然状态特征和任务(目标)权重类似于多目标奖励和线性权重向量,但在 MORL 中,奖励和权重向量之间的分解通常是给出而不是学习的。这是因为后继特征不观察单个目标,仅提供标量奖励函数。有人可能认为这将使 SF 比 MORL 更广泛地适用。但是,它也将此类方法的使用限制为可以从状态特征推断的场景。但是,更重要的是,正如我们在第 1 节中所讨论的,标量奖励函数通常是根据真实事件、多个传感器输入设计的,并根据用户和设计者的实际目标进行无休止的调整。因此,使用后继特征而不是 MORL,在许多现实世界中的问题会归结为首先丢弃信息以构建标量奖励函数,然后再从数据中部分推断出来。这当然是次优的,应该尽量避免。
Human-aligned agents
这章节不是很理解,对我的研究也没有帮助,不翻啦
7 多目标算法综述
多目标规划问题
对 MOMDP 的规划方法的研究比强化学习方法的研究要长得多,至少可以追溯到 1980 年代初期。 White 和 Kim [White, 1982] 改编了动态规划来开发一种算法,用于为无限范围折扣 MOMDP 寻找帕累托集策略。 然而,正如 Wiering 和 De Jong [2007] 所确定的那样,该方法存在计算可行性问题,并且会发现非平稳策略。 为了解决这个问题,他们开发了 CON-MODP 算法,该算法调用一致性算子来确保策略的平稳性。
布莱斯[2007]等人证明,在具有随机状态转移的 MOMDP 的背景下,旨在最大化 SER 的代理不能依赖于本地化决策。 在任何给定状态下可用的信息不足以确定 SER 下的最佳动作,并且智能体还必须考虑在 MOMDP 的所有其他状态下将选择的动作以及将收到的奖励。 他们开发了Multi-objective Looping AO* (MOLAO*) 算法来解决这个问题。
Convex Hull Value Iteration (CHVI) 算法 [Barrett 和 Narayanan,2008 年] 是 MOMDP 规划中被广泛引用的作品之一。 尽管它经常被错误地描述为 MORL 方法,但它实际上扩展了贝尔曼的价值迭代算法,以估计和存储每个状态-动作对的未来奖励的凸包。 这允许 CHVI 识别策略集的覆盖范围,但前提是效用函数是线性的。 由于线性效用函数,CHVI 类似于 POMDP 中的规划(另请参见第 6.1 节中与 POMDP 的关系)。 在最近的一篇论文中表明了这一点,该论文通过在这些方法的后续迭代中重用跨线性程序的信息来改进 CHVI 和 POMDP 值迭代方法 [Roijers et al., 2018c]。
其他规划方法已经考虑了非线性效应函数。 Perny 和 Wang [Perny andWeng, 2010] 解决了寻找单一最优策略的任务,目标是最小化接收到的奖励向量与目标空间中的目标参考点之间的距离。他们表明,该方法的非线性特性不适用基于贝尔曼方程的动态规划等方法,故为此任务开发了非线性规划解决方案。与此同时,Wray 等人将 Lexicographic MDPs 识别为 MOMDPs 的特定子集,其中对目标有特定的排序。他们开发了基于价值迭代的方法来解决这些任务,允许目标的排序依赖于状态,并结合了松弛的概念,这允许主要目标有一定程度的损失,以便在次要目标中获得收益。这种方法也已扩展到 POMDP [Wray 和 Zilberstein,2015 年]。
Stateless/bandit algorithms
Single-policy algorithms
也许最简单和最广泛采用的 MORL 方法是扩展现有的单目标无模型基于值迭代的方法,例如 Q-learning,以处理多个目标。 此扩展需要对学习算法进行两次更改,即代理必须将 Q 值存储为向量而不是标量,并且必须使用旨在匹配用户效用函数的标量函数来识别要在任何给定情况下执行的贪婪动作。 这种方法自然会产生多目标问题的单策略解决方案,因为底层的单目标方法旨在产生单一的最佳解决方案。
这种single-policy方法大多都使用了加权或未加权的线性标量函数。这相当于将 MOMDP 转换为相应的 MDP,因此现有的收敛证明适用。在某些领域,这也将是用户潜在效用的合适表示(例如,在目标自然以货币形式表达的问题中)。然而,在许多情况下,这种线性函数不足以代表用户的真实效用。因此,通常最好使用非线性函数。然而,这违反了作为这些算法核心的 Bellman 方程中的附加回报假设,因此可能有必要在增强状态下调节 Q 值和代理的动作选择通过将环境状态与代理先前收到的总奖励连接起来形成 (这句原文也太长了很难理解,看样子写论文确实不能写太长的句子啊)。此外,这些方法可能无法在具有随机状态转移的环境中收敛到最佳策略。
这些基于价值的方法的替代方案是采用策略搜索算法。它们的优点是通过优化策略,可以直接优化任何效用函数,包括非线性函数。此外,它们通常会产生随机策略,这在第 5.2.3 节前面讨论的多个目标的背景下可能是有益的。例如,潘等人结合长期政策梯度和短期规划,以找到单一政策的解决方案,而 Siddique 等人探索 PPO 和 A2C 的多目标形式,以寻找对所有目标都公平的单一政策,如 Generalized Gini social welfare function。文献中已经探索了大量进一步的多目标策略搜索方法,但大部分工作都是在多策略方法和/或深度强化学习的背景下进行的,因此将在后面的小节中进一步讨论.
Multi-policy approaches
多策略方法可以分为两类。外循环方法处理一系列单目标问题,而内循环方法用于生成多个策略。
最简单的外循环方法遍历效用函数的一系列不同参数设置,并为每个设置重新运行单策略 MORL 方法。可以通过两种方式提高外循环方法的效率:重用早期学习的信息而不是丢弃这些信息可以减少学习时间;其次,通过参数空间的naive搜索可能会多次重新学习相同的策略,或者需要小步长以确保发现所有最佳策略。更高效的自适应搜索方法可以减少外循环的迭代次数。
内循环方法修改底层算法以直接并行而不是顺序地识别和存储多个策略。 Pareto-Q-Learning (PQL) 和 PQ-learning 都修改了 Q-learning 来为每个状态-动作对存储多个帕累托最优值。修剪支配值用于消除支配策略。到目前为止,这些方法仅限于 Q 值的表格表示,限制了它们更广泛的适用性,Pareto DQN 算法提供了整合 PQL 和深度强化学习方法的初步尝试。它在批学习中,多目标拟合 Q 迭代 (MOFQI) 将拟合 Q-Iteration 算法扩展到多目标情况,方法是将线性标化权重添加到系统状态中。 MOFQI 通过单个训练过程学习所有标化权重组合的最佳 Q 函数的近似值。
多位作者基于蒙特卡罗树搜索的多目标扩展开发了内循环多策略方法。关于在任何点扩展树的哪个分支的决定是基于超体积度量或基于帕累托优势的度量来确定的。
这一段介绍了model-based MORL算法。不翻了。
为了在具有连续状态-动作空间且状态不可完全观察的域中学习,通常会考虑策略搜索或演员-评论算法 。 在文献中,外循环 [Parisi et al., 2014] 和内循环 [Parisi et al., 2016, Giuliani et al., 2016, Parisi et al., 2017] 方法都将策略搜索方法扩展到多目标问题。 帕里西等人构建了帕累托前沿的连续近似而非离散近似。
Population-based的进化方法非常适合寻找多种策略,因为每个人都可以代表一个针对不同的效用偏好集的最策略。 多目标进化优化领域已经非常成熟,并且一些研究人员已将这一领域的概念应用于 MORL 任务。 进化方法既可以直接应用,也可以与局部hill-climbing、策略梯度或演员评论家方法相结合。
Interactive approaches
Scaling up to high-dimensional states
Multi-agent algorithms
以上分类都不翻了,按需去原文查找吧。
8 评价指标
9 一个例子
10 结论,挑战和开放问题
近年来,基于规划或强化学习方法的顺序决策体的能力取得了重大突破。这导致这些智能体越来越多地应用于复杂的现实世界问题。然而,如第 2 节中的示例所示,这些现实世界的任务经常需要在多个相互冲突的目标之间进行权衡。这与诸如围棋和视频游戏等环境的固有单一目标性质形成鲜明对比,在这些环境中,规划和学习算法已在很大程度上得到开发和评估。当这些单目标方法应用于本质上是多目标的问题时,要么某些目标最终被排除在考虑之外,要么将这些目标加在一起形成标量奖励。如第 1 节到第 4 节所述,使用单目标方法解决多目标问题有许多缺点:它迫使对目标之间的所需权衡做出先验和不确定的决定;它限制了发现多种策略以快速适应不断变化的偏好的能力;它将管理权衡的责任从问题利益相关者转移到系统开发人员,并且可能导致未能最大化用户效用的解决方案。
虽然在过去十年左右的时间里,多目标问题的规划和 RL 算法的开发取得了重大成就(如第 7 节所述),但与单目标智能体的研究相比,它仍然是一个可探索的领域并存在许多挑战。本文的其余部分将概述我们认为是多目标代理研究最重要和最紧迫的挑战的主题。
缺乏多目标数据集和基线
数据在多目标决策 (MODM) 中发挥作用。在解决给定的 MO 问题时,通常需要数据来表征和解决所涉及的目标。但是,当前可用的数据可能不足以对某些目标或领域进行建模。虽然这对于面向公司的研究来说往往不是问题(因为如果需要实现其目标,公司通常可以获得所需的数据),但对于基础研究而言,这通常是一个重大问题(缺乏数据可能会使无法研究某些问题)。这里面临的一些挑战包括:异质性、可用性和缺乏相关性。
多多多目标问题
在多目标进化优化领域内,处理具有多个目标(通常定义为四个或更多目标)的问题的任务已成为一个不同的子领域,因为认识到对少数目标运行良好的算法可能对许多目标的缩放效果不佳 。到目前为止,针对多目标问题的规划或 RL 方面的工作很少。例如,Zintgraf 等人考虑具有 11 个目标的交通管制问题(反映不同交通参与者和不同方向的延迟持续时间和队列长度),以及如何在这种设置中使用解决方案和高斯过程之间的成对比较查询来引出和建模用户效用。朱利安尼等人展示了一种降维方法,其中使用非负主成分分析将原始目标映射到较低的维度,而 Yahyaa 等人检查了老虎机算法在最多五个目标的问题上的性能。然而,为多目标问题开发更广泛的算法仍然是未来工作的重要方向。
多智能体问题
许多现实世界的问题涉及多个参与者和目标,在做出决定时应该考虑这些问题。多目标多智能体系统代表了研究此类问题的理想环境。然而,尽管它具有很高的相关性,但它仍然是一个未被充分研究的领域,这可能是由于所涉及的维度越来越复杂。
在最近关于多目标多智能体决策制定的综述之前,该领域的文献相当零散,缺乏统一接受的框架或一组假设来进行适当的比较并确定研究环境方面的差距。根据 [R˘adulescu et al., 2020a] 提出的分类法以及与 MOMADM 的合适解决方案概念建立的链接(在第 7.2.6 节中简要讨论),我们预计针对多目标多智能体问题的研究将在未来几年增加。
MOMADM 领域提出了无数公开挑战,范围从如何制定在多个潜在解决方案之间进行选择的协商策略,优化标准的选择如何影响均衡(SER vs . ESR,第 5.3 节)和代理的效用函数,如何了解其他智能体的行为或客观偏好,如何处理顺序或连续的状态-动作设置。
对 MOMADM 方法的评估也是一项具有挑战性的任务。
动态识别和添加目标
正如前面第 5.1 节,对基于问题的初始表述发现的策略的分析可能会揭示需要修改或扩展代理考虑的目标,以便找到更可接受的解决方案。虽然单目标文献中的先前工作已经考虑在学习或规划期间或之后修改问题的设置,例如环境状态动态的变化 、动态奖励或引入新动作,显然添加新目标是多目标方法所独有的。
理想情况下,智能体应该能够整合新增的或修改过的目标,而无需放弃先前的学习,并且使得在调整其策略时的regret最小。实现这一目标的一种方法是在其当前策略下维护智能体经验,使其可用于执行与更新的目标规范相关的离线学习,而无需与实际环境进行任何进一步的交互。或者,在学习期间,智能体识别可能与潜在的新目标相关联的状态(例如,在特征空间中与其他状态有很大不同的状态),并创建与这些状态相关联的自己的奖励,使得如果用户定义与这些状态相关的新目标,其策略可以快速更新。