【书籍翻译】A Concise Introduction to Decentralized POMDPs （第二章）

最新推荐文章于 2024-10-18 11:21:51 发布

uglyghost1111

最新推荐文章于 2024-10-18 11:21:51 发布

阅读量819

点赞数 3

分类专栏：书籍翻译

原文链接：https://www.fransoliehoek.net/docs/OliehoekAmato16book.pdf

版权

多智能体系统部分可观测马尔可夫决策过程 Dec-POMDPs 协作决策信息不确定性

关键词由CSDN通过智能技术生成

书籍翻译专栏收录该内容

1 篇文章 1 订阅

订阅专栏

【书籍翻译】A Concise Introduction to Decentralized POMDPs （第二章）

第二章分散式部分可观测马尔可夫决策框架

第二章分散式部分可观测马尔可夫决策框架

本章给出了Dec-POMDP模型的标准定义。该模型由单智能体马尔科夫决策过程衍生而来，属于离散时间规划框架（discrete-time planning frameworks）。该框架指定了一个或多个存在于特定环境的主体，并按照离散时间步长（time steps），也称阶段（stages）或者决策时期（decision epochs）。智能体与环境进行交互的时间步长数被称为该决策问题的“视界”（horizon），并被定义为 $h$ 。
决策理论规划中所考虑马尔可夫决策衍生框架提供了行动和观察接口，并通过它们与环境进行交互，这与智能体的定义非常契合。每个阶段 $t = 0, 1, 2, . . ., h - 1$ ，所有智能体都会采取一个动作，这些动作的组合影响环境，使得环境发生改变。在下个阶段开始时，每个智能体会先接收到一个环境的观测结果，随后它们会再次采取行动。环境变化和产生观测的方式被建模成转移模型（transition model）和观测模型（observation model）。这些模型的概率特性表征了环境的随机动力学过程。此外，奖励模型（reward model）表示了智能体的目标和任务，也就是说智能体必须指定一个能够使得长期回报期望最大的行动策略。

2.1 单智能体决策框架

在深入研究不确定条件下多智能体决策的核心问题之前，首先给出单智能体问题的简单介绍。其中将重点讨论马尔可夫决策过程（Markov decision process, MDPs）和部分可观测马尔可夫决策过程（Partially observable Markov decision process, POMDPs）。熟悉这些模型能够更好的帮助读者理解本书内容，因此本章为复习内容和符号定义。关于这些内容的更多介绍可以参考 Russell and Norvig [2009], Puterman [1994], Sutton and Barto [1998], Kaelbling et al. [1998], Spaan [2012]等人的文献。

2.1.1 马尔可夫决策过程

马尔科夫决策过程可以形式化为单智能体在随机场景下的离散时间规划任务，其中智能体可以观测环境状态。如图2.1所示，每个时间步长状态的变化都是随机的，但是智能体会通过选择一个动作来选择特征的状态转移函数。在时隙 $t$ ，智能体基于特定状态 $s_t$ 采取动作 $a_t$ ，并得到时隙 $t + 1$ 时，状态 $s_{t+1}$ 的概率分布。针对MDP规划问题，其目标是寻找一个能够最优化回报期望的行为策略。行为策略，也就是智能体的目标可以建模为多种形式。第一种形式的目标函数可以看成是智能体需要达到某个目标状态，例如，针对迷宫问题，智能体的目标是找到迷宫的出口；另外，也可以是在特定状态下执行特定动作的成本，在这个中条件下，智能体的目标是最小化整体成本的期望值；此外，也可以给特定状态下采取的动作赋予相应的奖励值，并将目标设置为最大化整体的奖励。
在这里插入图片描述
当智能体知道状态转移概率时，例如，当它知道转移的模型，它就能够推测随着时间推移状态转移的期望，并计算得到最可能实现特定目标状态的计划。同理，目标也可以是最小化成本期望值或最大化奖励期望值。
对于有限视界（finite-horizon）场景，智能体能够采取非平稳策略（non-stationary policy） $\pi=(\delta_0,...,\delta_{h-1})$ ，即一个决策规则的序列 $\bm{\delta}_{t}$ 。对于无限视界，在某些假设前提下[Bertsekas, 2007]，智能体能够采取稳定策略（stationary policy） $\bm{\pi}=(\bm{\delta})$ ，并在每个阶段都采取该策略。因此，规划任务可以看成是在决策空间中的搜索过程（寻找决策序列）。在规划过程中，这个搜索过程可以采用MDP模型来计算不同候选方案的期望回报。
这种规划方法与强化学习（reinforcement learning, RL ）不同 [Sutton and Barto, 1998]，其中智能体不具有对于环境的模型，但是可以通过与环境反复交互来学习好的行为。强化学习可以看作是学习环境模型和规划模型的联合任务，虽然在很多实际问题中不需要明确地恢复环境模型。本书只关注与规划问题，但考虑另外两个因素会使得计算计划变得更加复杂：1）智能体无法观察环境的状态；2）存在多个智能体的系统。

2.1.2 部分可观测马尔可夫决策过程

考虑噪声和传感器的限制会阻碍智能体观察环境的状态，因为观察是不准确的，因此会产生认知混淆。为了表征状态的不确定性，POMDP作为MDP的拓展模型，将观测结果和观测所发生的概率作为环境状态的条件[Kaelbling et al., 1998, Cassandra, 1998, Spaan, 2012]。如图2.2所示，在POMDP中，智能体不知道全局状态，但是可以维护一个对于状态的信念（belief）。也就是说，它可以使用观察历史记录来估计环境状态的概率，并使用估计的状态信息来决定所需执行的动作。
在这里插入图片描述
定义1（belief） 对于POMDP，信念（belief）是智能体对环境状态估计的概率分布：
$\forall_{s_t} b(s_t) \triangleq \text{Pr}(s_t|o_t,a_{t-1},o_{t-1},...,a_1,o_1,a_0)$
因此，单智能体在部分可观测环境，能够将其策略表征为观测序列到动作的映射（每个阶段 $t$ 都进行一次决策），也称决策规则。同样，对于无限视界的情况，智能体通常能够采用静态策略，该规则对于所有阶段都包含一个静态决策规则。在决策过程，智能体能够基于贝叶斯规则，通过增量的方式更新它的当前信念。针对特定动作 $a_t$ 在接收观测 $o_{t+1}$ 所采用的信念更新可以表示为：
$\forall_{s_{t+1}} b_{t+1}(s_{t+1})=\frac{1}{{\text{Pr}}(o_{t+1}|b_t,a_t)}\sum_{s_t} b_t(s_t) {\text{Pr}}(s_{t+1},o_{t+1}|s_t,a_t)$
在该等式中， ${\text{Pr}}(o_{t+1}|b_t,a_t)$ 是归一化常数， ${\text{Pr}}(s_{t+1},o_{t+1}|s_t,a_t)$ 是假定状态为 $s_t$ 时，当得到观测结果 $o_{t+1}$ 时，POMDP模型得到特定状态 $s_{t+1}$ 的概率值。
在控制理论中，（连续的）观测序列也被称为测量（measurements），通常被描述为状态的确定性函数。传感器噪声被建模成该函数中所增加的随机干扰项，并引入状态估计器组件来处理该项式，例如，通过卡尔曼滤波（Kalman filtering）[Kalman, 1960]。当状态组件无法直接测量时，就会出现感知混叠。例如，估计器可能无法直接测量一个机械臂的角速度，在这种情况下，可以增加一个观察者，根据它位置随时间的变化情况，估计其角速度。
虽然经典控制理论中处理状态不确定性所涉及的术语和技术与POMDP中所使用的不同，但两者在基本思想上时一致的，都是利用观测历史信息来改进智能体策略。然而，控制理论通常会将估计和控制组件分离。例如，估计器会返回机械手臂的角度和角速度值，这些值被用于动作的选择，但是这些值都是确定的值，不具有不确定性特征（概率特征）（原文：as if there was no uncertainty）。相比之下，POMDP允许智能体显式地对信念进行推理（原文：explicitly reason over the belief），并给出在该信念下的最佳动作是什么。因此，智能体使用POMDP技术能够对收集的信息进行推理：在有利的环境下，智能体将选择能够提供更多状态信息的动作。

2.2 多智能体决策：分散式部分可观测马尔可夫决策过程

尽管POMDP在原则上提供了对状态不确定性的处理，但是它只考虑单智能体场景。为了处理由于多个智能体所带来对不确定性的影响，本书考虑一种扩展的POMDP框架，称为分散式（decentralized）POMDP（Dec-POMDP）。
Dec-POMDP框架如图2.3所示。如图所示，它将POMDP推广到多个智能体，因此可以用来建模一个随机的、部分可观测环境下的多智能体协作团队。在形式上，Dec-POMDP可定义为如下形式：
定义2（Dec-POMDP） 分散式部分可观测马尔可夫决策过程可以定义为元组 $\mathscr{M}=<\mathbb{D},\mathbb{S},\mathbb{A},T,\mathbb{O},O,R,h,b_0>$ ，其中：

$\mathbb{D}=\{1,...,n\}$ 为 $n$ 个智能体集合
$\mathbb{S}$ 为一个有限的状态集合
$\mathbb{A}$ 为联合动作集合
$T$ 为转移概率函数
$\mathbb{O}$ 为联合观测集合
$O$ 为观测概率函数
$R$ 为即时奖励函数
$h$ 为智能体的视界
$b_0\in\bigtriangleup(\mathbb{S})$ 为 $t = 0$ 时刻的初始状态分布

Dec-POMDP模型通过联合动作和观测，将单智能体POMDP模型扩展到多智能体场景。其中 $\mathbb{A}=\times_{i\in\mathbb{D}}\mathbb{A}_i$ 为联合动作集合。其中 $\mathbb{A}_i$ 为智能体 $i$ 的可选动作集合，每个动作的可选动作是可以不同的。对于每个阶段 $t$ ，每个智能体 $i$ 采取动作 $a_{i,t}$ ，所有智能体在该阶段采取的整体动作为 $\bm{a}=<a_1,..,a_n>$ 。联合动作如何影响环境可以通过状态转移函数 $T$ 表示，例如 $\text{Pr}(s'|s,a)$ 。对于Dec-POMDP，智能体只知道它们自己采取的动作；它们无法观察其它智能体的动作。假设 $\mathbb{A}_i$ 独立于阶段 $t$ 或者环境状态（在上述约束条件下所构建问题的具有较好的泛化性（原文：but generalizations that do incorporate such constraints are straightforw-ard to specify））。类似地， $\mathbb{O}=\times_{i\in\mathbb{O}}\mathbb{O}_i$ 为联合观察集合，其中 $o_i$ 为智能体 $i$ 可得到的观测集。在每个时隙，从环境得到联合观测结果 $\bm{o}=<o_1,...,o_n>$ ，但是每个智能体只知道它自己的观测结果 $o_i$ 。观测函数 $O$ 指定了联合观测结果的概率 $\text{Pr}(o|a,s')$ 。图2.4进一步展示了Dec-POMDP模型的动力学模型。
在这里插入图片描述
即时奖励函数可以表示为 $\mathbb{S}\times\mathbb{A}\to\mathbb{R}$ ，是状态和联合动作到实数的映射，通常用来表示多智能体的目标。值得注意的是， $R$ 只指代了当前的奖励，且每一次联合行动所得到的奖励。而目标实际上应该是优化智能体长期行为的指标，例如，它应该优化所有时域的整体回报。因此，为了解决该问题，需要选择一个最优评价标准（optimality criterion），将所有智能体的即时奖励量化表示。例如，当在有限视界上进行规划时，非折扣累计奖励期望（undiscounted expected cumulative reward）通常被作为最优评价标准（非折扣累计奖励期望是所有时间下奖励总和的期望值，第三章将重点介绍此概念）。规划问题的目标就是找到一个策略组合，又称为联合策略（joint policy），能够最大化最优评价标准。
在动作执行过程中，根据假设每个智能体智能基于各自的观测行动，并且不具有额外通信的行为。这并不代表Dec-POMDPs不能建模智能体间的通信行为。例如，如果智能体采取了动作“mark blackboard”，那么其它智能体就可能会观测到“mark on blackboard”，那么智能体就因为环境状态的改变而产生了通信行为。然而，这种沟通是非显式的，因此也可以说Dec-POMDP可以通过动作隐式地建模通信行为。在Dec-POMDP中通信没有特殊的语义信息，关于Dec-POMDP通信的内容将在章节8.3中进一步讨论。
值得注意的是，和其它规划模型类似（通常与强化学习相比），在Dec-POMDP中，智能体是无法直接知道即时奖励的。因为如果能够获取到即时奖励信息，智能体就能够一定程度上推测出真实状态信息，因为奖励信息能够传达状态信息，而这些信息可能是接收到观测信息所不具备的，因此这是不可取的，因为所有智能体获知的信息只能够通过观测得到。当针对Dec-POMDP制定计划时，累计未来奖励的期望是唯一需要考虑的指标，该指标对于离线计划是可获得的，但是实际情况下奖励无法获得。因此甚至可以认为奖励在最后都不会出现，也就是说观察是获取奖励信息的唯一途径。

2.3 实际用例

为了加深读者对于Dec-POMDP的理解，本节将进一步讨论一些具体示例，具体包括：简单的“decentralized tiger”问题（但很难求解）、多机器人协同和通信网络优化问题。

2.3.1 Decentralized Tiger

首先讨论分散式老虎（Dec-Tiger）问题 Nair et al. [2003c]，该问题是Dec-POMDP的标准示例，它考虑的是两个特工站在两扇门前，其中一扇门后面藏有宝藏，另一扇门后面则有一只老虎，如图2.5所示。
在这里插入图片描述
状态描述了具体哪扇门藏有老虎——左（ $s_l$ ）右（ $s_r$ ）——两种情况发生的概率都为0.5（即初始状态 $b_0$ 是均匀分布的）。因此，每个智能体能够采取三个动作：1）打开左边的门（ $a_{OL}$ ）；2）打开右边的门（ $a_{OR}$ ）或者倾听（ $a_{Li}$ ）。显然，打开宝藏的门可以获得奖励（+10），但是打开藏有老虎的门将导致严重的惩罚（-100）。只有两个特工同时打开正确的门才能得到更高的奖励（+20）。因此，好的策略是先采取倾听行为，虽然倾听动作也具有较小的成本（负回报-1）。完整的奖励模型如表2.1所示。
在这里插入图片描述
每个阶段特工都能够得到观测信息：他们可以倾听左门（ $o_{HL}$ ）或右门 $o_{RL}$ 后面的声音，但是特工有15%的概率听错声音（获得错误的倾听结果），也就意味着只有0.85*0.85=0.72的概率两个特工都得到正确的观测结果。因此，也只有两个特工都采取倾听动作时，观测才具有信息性。如果任意一个特工打开门，两个特工都将收到一个没有信息性（统一产生的）的观察结果，然后该问题被重新重置， $s_l$ 和 $s_r$ 恢复到均匀分布。随后，特工们继续考虑该问题，因此特工可以多次获得门后面的宝藏。另外，由于设置特工只能收到观测结果 $o_{HL}$ 和 $o_{RL}$ ，特工不能得知问题被重置了：如果一个特工打开了门，而另一个特工采取倾听策略，倾听的特工是无法得知门已经被打开且问题已经重置。完整的转移，观测和奖励模型如表2.2所示。
在这里插入图片描述

2.3.2 Multi-Robot Coordination: Recycling & Box-Pushing

Dec-POMDP也能够用于表征多机器人任务。实际上，很多基准问题都是为了解决机器人的协同问题。这里将简要描述其中两个问题：回收机器人协同工作和合作推箱子。
回收机器人协同工作：该问题在本书1.1节中讨论过，能够通过很自然的方式表示为Dec-POMDP。状态 $\mathbb{S}$ 包括每个智能体所处的位置，他们的电池容量和垃圾桶内的垃圾数量。每个机器人采取的动作 $\mathbb{A}_i$ 包括朝不同方向移动，捡起垃圾桶或者给电池充电（当处于垃圾桶或者充电桩范围内时）。另外，大型垃圾桶需要两个智能体协作才能捡起。观测 $\mathbb{O}_i$ 包括它自身的电池容量、所处位置、在传感器范围内的其它机器人和感知范围内垃圾桶中垃圾的数量。即时奖励 $R$ 包括多个积极的回馈，如当一对机器人清空大型垃圾桶（full）会获得的较大奖励、单个机器人清空小型垃圾桶会获得的较小奖励，机器人电池耗尽或者垃圾桶溢出时导致的负奖励。最优解决方案是机器人的联合策略，它会考虑预期行为的价值（假设奖励是事先设定好的）。也就是说，它确保了机器人在适当的时候会协作地清空大型垃圾桶，并考虑自身电池的使用情况进行充电，或者单独清空小型垃圾桶。
合作推箱子：该领域问题是由 Seuken and Zilberstein [2007b] 首次提出的，是一种双机器人协作的标准问题。在该问题中，智能体位于一个网格世界中，现在它们需要协作地移动这个小世界中的箱子。其中，小箱子可以有一个智能体单独推动，而大箱子需要两个智能体协作才能推动，每个智能体具有四个动作：左转、右转、前进和停留，以及五个描述智能体前面网格位置的观察：空、墙、其它智能体、小盒子和大盒子。
在这里插入图片描述

2.3.3 Network Protocol Optimization

组播信道（Broadcast channel）是首次由 Hansen et al. [2004] 提出，并由 Bernstein et al. [2005] 修缮，建模了两个网络节点以协作地方式，最大化共享通信链路带宽利用。在每个阶段，智能体节点可以选择向信道发送信息或者不发送信息，并观察是否发生通信干扰（通过同时发送信息则会产生干扰）。当信息被成功发送出去后，节点获得奖励（+1），其它动作无法获取奖励。该问题具有四种状态（在缓存区中是否存在信息），两种动作（发送与不发送）和五种观察结果（缓冲区中是否存在信息和当信息被发送后是否存在干扰）。
该问题可进一步拓展，考虑状态变量，即确认信息到达的间隔时间，在发送者确认之后的平均流逝时间，最近一次的数据包往返时间（round-trip-time, RTT）测量值和最近一次观测的比值，以及针对拥塞窗口所进行的动作调整（增量和乘数）和发送数据包的最小时间间隔 [Winstein and Balakrishnan, 2013]。

2.3.4 Efficient Sensor Networks

传感器网络也同样被建模成Dec-POMDPs [Nair et al., 2005, Marecki et al., 2008]。例如，考虑如图2.7所示的场景，在该场景下传感器网络需要协作，从而最大化发现入侵者的概率，并最小化电子资源使用。入侵者在平面（可以看成是二维离散网格平面）上根据某种行为模式（或者随机性地）行动。在每个阶段，网络中的传感器可以向某个方向扫描，或者选择休眠（节约电量）。对此类问题状态最典型的描述是入侵者的位置，以及每个传感器节点的相关变量（例如，剩余电量信息）。对于每个传感器节点，观测信息是是否发现入侵者；即时奖励包含扫描的资源消耗（能源使用），另外当传感器节点在扫描区域发现了目标可以分配一个正向奖励，当多个传感器扫描该区域时，整个系统可以获得更大的奖励。这些问题都是合作性的，当多个传感器在同一时间检测到目标时，奖励通常是相互叠加的，因为它们收集的信息具有冗余。
在这里插入图片描述
由于传感器网络的状态，联合行动和联合观测的数据规模可能十分巨大，为了能够完整的表示这些信息，通常需要利用该类问题的特殊结构。这部分内容将在2.4.2节中详细讨论。Dec-POMDP的一些子类问题经常运用在传感器网络的讨论中，如网络化分布式POMDP（networked distributed POMDP, ND-POMDP）。ND-POMDP将在第八章中介绍，到时将重新对该示例进行讨论。

2.4 特殊情况、泛化和相关模型

由于解决Dec-POMDPs非常复杂（该问题将在下一章讨论），很多研究都集中于特定情况下的Dec-POMDPs。本节将简单介绍一些典型的Dec-POMDPs特例。如果想知道更多关于Dec-POMDP相关问题的研究，请参看 Pynadath and Tambe [2002], Goldman and Zilberstein [2004], Seuken and Zilberstein [2008] 等文献。此外，本节还给出了部分可观测随机博弈（该问题可以说是对Dec-POMDP的推广）的介绍，以及交互式POMDP框架的概述，该框架与Dec-POMDP非常相关，并采取主观视角。

2.4.1 可观测性与分散式马尔可夫决策

Dec-POMDP具有一个重要特点，就是通过观测过程给智能体提供信息。研究者根据不同的观测等级制定了不同类别的观测函数[Pynadath and Tambe, 2002, Goldman and Zilberstein, 2004]。当观测函数总是能够识别真实状态时，该问题是完全可观测的（fully observable），也称为独立可观测的（individually observable）。在这种情况下，问题退化成中心式的模型，更多细节内容将在2.4.3节讨论。
另外一个极端情况是完全不可观测的（non-observable），这意味着智能体无法观察到任何有用的信息。该情形将观测集限制在空集观测（null-observation） $\forall_{i}\mathbb{O_{i}}=\{o_{i,\emptyset}\}$ 来建模。在不可观测情况下，智能体只能采取开环方案（open-loop plan）：预定的动作序列。从复杂度的角度来看，不可观察会导致设置更容易 (NP完全问题（NP-complete）, Pynadath and Tambe 2002)。
介于这两者之间存在一些部分可观测的问题，也是本书的重点。此外还存在一种特殊情况，即不是通过个体而是通过多个智能体的联合观测来确定真实状态。也就是说，所有智能体将观测结果结合起来，就能准确地知道环境的状态。这种情况被称为联合观察和集体观察（jointly- or collectively observable）。
定义3（Dec-MDP） 联合可观测的Dec-POMDP被称为分散的Markov决策过程Dec-MDP。
Dec-MDP的常见例子是这样的：状态包括一组机器人的位置，并且每个智能体都能完美地观察自己的位置。因此，如果把所有这些观测结果结合起来，就可以知道所有机器人位置。
值得注意的是，虽然所有的观测能够确定Dec-MDP中的状态，每个智能体却都只有一部分观测结果。因此，Dec-MDPs属于Dec-POMDP的非平凡子类，并且实际上可以证明这个子类的最坏情况的复杂性（参见3.5节）与Dec-POMDPs是相同的 [Bernstein et al., 2002]。这意味着棘手的问题来自于状态的分布情况，而不（仅仅）是状态的不可见性。

2.4.2 模型的分解

另外一类特殊案例关注的是使用转换、观察和奖励函数等显式属性，以便简洁地表示Dec-POMDPs问题并将其有效解决。其核心理念是将状态、转换、观察和奖励功能视为非原子实体，而是由许多因素共同组成，并明确地呈现出不同因素是如何相互影响的。
例如针对传感器网络的情形，每个传感器的观察通常只取决于它自身所处的环境。因此，可以使用更小的观测函数乘积更加紧凑地表示观测模型（每个特工都具有该功能）。此外，由于在许多情况下，感知成本是局部的并且传感器不会影响它们的环境，因此在奖励和转移函数方面可能存在一些特殊结构。
大量采用因式分解的模型被提出来，例如转移和观测独立的Dec-MDP [Beckeretal.,2003]，ND-POMDP [Nair et al., 2005]，可因式分解的Dec-POMDPs [Oliehoek et al., 2008c]，以及许多其它模型 [Becker et al., 2004a, 2005, Shen et al., 2006, Spaan and Melo, 2008, Varakantham et al., 2009, Mostafa and Lesser, 2009, Witwicki and Durfee, 2009, 2010b, Mostafa and Lesser, 2011a,b, Witwicki et al., 2012]。其中很多细节都将在第八章中讨论。在本章的其余部分中，概述了许多可能出现的不同形式的独立性。
本文将讨论Dec-MDPs的因式分解，类似的因式分解过程也可以在Dec-POMDP中完成。
定义4（Agent-wise Factored Dec-MDP） An (agent-wise) factored n-agent Dec-MDP是能够将全局状态分解成 $n + 1$ 个组件的Dec-MDP， $\mathbb{S}=\mathbb{S}_1\times...\times\mathbb{S}_n$ 。其中状态 $s_i\in\mathbb{S}_i$ 是关于智能体 $i$ 的本地状态。
例如，考虑智能体导航任务，其中多个智能体位于网格中的各个位置，，它们的目标是让所有的智能体导航到特定的网格单元。在这个任务中，智能体位置状态 $s_i$ 可能包含它在网格中的位置。进一步，确定了 agent-wise factored Dec-MDP 可能具有的一些属性。
Agent-wise factored Dec-MDP 也被认为是局部完全可观测的，如果每个智能体完全观察它自己的状态组件。例如，如果导航问题中的每个智能体都能观察到自己的位置，那么状态在局部是完全可观察的。
如果状态转移概率可以按照下式分解，则称为 factored, n-agent Dec-MDP 转移独立：
$T(s'|s,a)=\prod_{i}^{n}T_i(s'_{i}|s_{i},a_{i})$
这里的 $T_i(s'_{i}|s_{i},a_{i})$ 表示当智能体 $i$ 执行动作 $a_i$ 时，局部状态从 $s_i$ 转移到 $s'_i$ 的概率。例如，在机器人导航任务中，如果机器人之间不存在影响，那么机器人的状态转移就是相互独立的（例如，它们在移动的时候不会相互碰撞，可以共享同一个网格单元）。另一方面，前面提到的回收机器人就不是转移独立的。尽管机器人的移动行为是独立的，但是无法将整体状态拆分为每个智能体局部状态：因为在这个场景中大型垃圾桶需要两个机器人协作完成回收任务。如果该环境只考虑小型垃圾桶，该问题就是转移独立的了。
如果观测概率可以按照下式分解，则称 factored, n-agent Dec-MDP 观测独立：
$O(o|a,s')=\prod_{i}^{n}O_i(o_{i}|a_{i},s'_{i})$
在上式中， $O_i(o_{i}|a_{i},s'_{i})$ 表示智能体 $i$ 在状态 $s'_{i}$ 下执行动作 $a_i$ 接收到观测 $o_i$ 的概率。如果机器人在导航问题不能相互观察到对方时（因为它们在不同的地方工作，或者缺少相应的传感器），该问题就是观测独立的了。
如果存在一个单调非递减函数 $f$ ，则称 factored, n-agent Dec-MDP 奖励独立：
$R(s,a)=f(R_1(s_1,a_1),...,R_n(s_n,a_n))$
如果奖励函数可以按照上式子分解，就可以通过最大化本地奖励来最大化全局奖励。也就是说，全局奖励可以表示局部奖励的加和形式：
$R(s,a)=\sum_{i\in\mathbb{D}} R_i(s_i,a_i)$
上式子在很多问题中经常被使用。

2.4.3 集中式模型：MMDPs和MPOMDPs

目前所有讨论中我们关注的是在执行阶段的真正分布式的模型：它们基于本地的观察结果选择所需执行的动作。另一种方法是考虑中心式的模型是，例如，可以根据全局信息选择（联合）行动。这种全局信息可见的条件可以是完全可观测或智能体的通信所致。对比前面介绍的情况，每个智能体只能观测相同观测结果或状态。在后面的情况，我们将假设智能体能够通过瞬时无噪声通信信道共享他们自己的观测结果。对于所有情况，都可以构造所对应的集中式模型。
例如，在这种通信模式下，Dec-MDP被有效地简化为多智能体马尔可夫决策过程（multiagent Markov decision process (MMDP)），具体参考文献 Boutilier [1996]。
定义5（MMDP）：多智能体马尔可夫决策（MMDP）可以被定义为元组 $\mathscr{M}=<\mathbb{D},\mathbb{S},\mathbb{A},T,R,h>$ ，其中组件的定义与Dec-POMDP相同（详见定义2）。
在上述设置中联合动作是基于状态选择的，而不需要考虑历史情况，这是因为状态具有马尔科夫性并且对于所有智能体都是可见的。并且，当所有智能体都知道环境状态时，它们之间协作方式将更加高效。可以将这种情况比作具有“木偶操纵者（puppeteer）”智能体的一般MDP，它负责为智能体选择联合动作。对于这种MDP可以通过标准动态规划技术找到最优策略 $\bm{\pi}^{*}$ 。该解决方案可以表示为 $\bm{\pi}^{*}=(\bm{\delta}_0,...,\bm{\delta}_{h-1})$ ，表示不同阶段状态到联合动作的映射关系 $\forall_t \bm{\delta}_t:\mathbb{S}\to\mathbb{A}$ ，并且策略还能根据智能体拆分为： $\bm{\pi}_{i}=(\bm{\delta}_{i,0},...,\bm{\delta}_{i,h-1})$ ，具有 $\forall_{t}\delta_{i,t}:\mathbb{S}\to\mathbb{A}$ 。
类似地，在一般形式的Dec-POMDP增加广播信道将会得到多智能体部分可观测马尔科夫决策（multiagent POMDP, MPOMDP），这是POMDP的一种特殊情况。在MPOMDP中，每个智能体计算联合信念（joint belief）。例如，在给定联合动作和观测历史条件下状态的概率分布。
在这里插入图片描述
定义6（联合信念）：联合信念是由联合动作、观察历史以及初始状态 $b_0$ 共同导出的状态概率分布：
$\triangleq \text{Pr}(s|b_0,a_0,o_1,a_1,...,a_{t-1},o_t)$
我们将联合信念写作 $\mathbb{B} \triangleq \Delta(\mathbb{S})$ 。
由于MPOMDP属于POMDP，联合信念的计算方式可以通过贝叶斯规则进行增量计算，该计算方法与章节中相同。
虽然MPOMDPs是POMDP，而且POMDP很难求解 (PSPACE-complete, Papadimitriou and Tsitsiklis 1987)，解决MPOMDP相比于解决Dec-POMDP要简单很多。MPOMDP的解决方案指定了每个阶段联合信念到联合动作的映射 $\forall_t \bm{\delta}_t:\Delta(\mathbb{S})\to\mathbb{A}$ ，并且对于每个智能体。其个体的策略 $\pi_i=(\delta_{i,0},...,\delta_{i,h-1})$ 能够拆分为： $\forall_t\delta_{i,t}:\Delta(\mathbb{S})\to\mathbb{A}$ 。

2.4.4 多智能体决策问题

读者可能想知道为什么本文没有给出MPOMDP框架的正式元组定义。这是因为该部分定义与定义2中Dec-POMDP相同。也就是说，章节2.2中给出的Dec-POMDP的定义并不完整，因为它缺少智能体的通信能力定义，本小节将对该情况进行补充。
特别地，本节引入了多智能体决策问题（MADPs）的一般形式，该形式能够使其所指定的所有约束条件更加明确。特别是，它将更清楚地描述Dec-POMDP模型的去中心化约束，以及该方法可以是普遍的（例如，处于关于通信的不同假设）。我们首先定义每个智能体的环境：
定义7（马尔科夫多智能体环境）：马尔科夫多智能体环境（Markov multiagent environment, MME）可以定位元组 $\mathscr{M}=<\mathbb{D},\mathbb{S},\mathbb{A},T,\mathbb{O},O,\mathbb{R},h,b_0>$ ，其中

$\mathbb{R}=\{R_1,..,R_n\}$ 为智能体的即时奖励函数集合
其它所有组件与Dec-POMDP（定义2）的定义完全相同

除了本章剩余两个小节，在本书中将问题限制在智能体的协作模型中：协作MME（collaborative MME）是所有智能体获得相同奖励的MME：
$\forall_{i,j} \quad R_i(s,a) = R_j(s,a)$
因此即时奖励可以写成 $R_i(s,a)$ 。
MME是不充分的，因为它没有定义智能体执更新作所基于的信息，或者说如何智能体如何更新自己的信息。本文通过定义智能体模型来显式表示。
定义8（智能体模型）：对于每个智能体 $i$ 具有元组 $m_i=<\mathbb{I}_i,I_i,\mathbb{A}_i,\mathbb{O}_i,\mathbb{Z}_i,\pi_i,\imath_i>$ ，其中：

$\mathbb{I}_i$ 是信息状态（information states, ISs）的集合（也称为网络状态，或者信念）
$I_i$ 为智能体 $i$ 的当前网络状态
$\mathbb{A}_i,\mathbb{O}_i$ 定义和前面相同：表示智能体 $i$ 采取的动作和环境提供给智能体 $i$ 的观测结果
$\mathbb{Z}_i$ 表示从通信中获取的辅助观测结果 $z_i$
$\pi_i$ 动作选择策略（随机的） $\pi_i:\mathbb{I}_i\to\Delta(\mathbb{A_i})$
$\imath_i$ 信息状态函数（随机的）或者说信念更新函数： $\imath:\mathbb{I}_i\times \mathbb{A}_i\times \mathbb{O}_i\times \mathbb{Z}_i\to\Delta(\mathbb{I}_i)$

上述定义表明MME框架对辅助观测、信息状态、信息状态函数以及动作选择策略的定义并不明确。因此，MME本身不足以表示一个动力学过程。相反，还需要为所有智能体指定那些缺少的组件。在图2.9中给出了相关说明，图中展示了动态多智能体系统（在本例中是Dec-POMDP，我们将在下文重新定义它）是如何随着时间演进的。它明确表示，存在一个环境元组MME和一个智能体元组，该元组指定智能体如何更新它们的内部状态，而内部状态又展示了它们采取的动作。这两个元组共同作用，形成了一个动态过程。
在这里插入图片描述
定义9（智能体组件）：一个完全型的智能体组件可以表示成元组 $\mathbb{D}, \{\mathbb{I}_i\}, \{I_{i,0}\}, \{\mathbb{A}_i\}, \{\mathbb{O}_i\}, \{\mathbb{Z}_i\}, \{\imath_i\}, \{\pi_i\} >$ ，其中：

$\mathbb{D}=\{1,...,n\}$ 是n个智能体集合
$KaTeX parse error: Expected '}', got 'EOF' at end of input: {\mathbb{I}_i\}$ 是每个智能体的内部状态集合
${I_{i,0}\}$ 是每个智能体的初始内部状态
$\{\mathbb{O}_i\}$ 为观测集合
$\{\mathbb{Z}_i\}$ 为辅助观测集合
$\{\imath_i\}$ 为每个智能体的信息状态函数
$\{\pi_i\}$ 为策略集合，内部状态到动作的映射。

此外，我们假设智能体组件具有一种机制（左隐式）来生成辅助观察结果。
因此，代理组件处理整个代理团队的规范以及内部工作。也就是说，可以将智能体组件看成是一组智能体模型，即 $t = 0$ 阶段的联合智能体模型，并有一个生成辅助观测的机制。
显然，当MME和完全指定智能体组件结合在一起，就拥有了一个动力学系统：一个稍微复杂一点的马尔科夫奖励过程。然而，形式化这些组件的目的是要优化整个系统的行为。也就是说优化智能体组件并使其奖励最大化。
因此，本文提供了可以用这种方式形式化的一系列多智能体决策问题的全新视角。其中一方面，问题的设计者1）选择最优准则，2）指定MME，并且3）可以指定智能体组件元素的子集（它决定了正在处理问题的“类型”）；另一方面，问题优化器（如，开发一种规划方法）的目标是优化智能体组件的非指定元素，以便最大化最优准则的值。换言之，可以把智能体决策问题看成是一个带有非完全指定的智能体组件的MME的标准表达。
重新定义 Dec-POMDPs：现在可以通过MADPs框架重新定义Dec-POMDP问题。
定义10 （Dec-POMDP）：分布式POMDP（Dec-POMDP）可以表示为元组 $\langle OC,\mathscr{M}, m \rangle$ ，其中：

$O C$ 表示最优准则
$\mathscr{M}$ 表示MME
$m=\langle \mathbb{D},.,.,\{\mathbb{A_i}\},\{\mathbb{O_i}\},\{\mathbb{Z_i}=\emptyset\},.,. \rangle$ 为智能体组件的部分指代： $m$ 可以看出是部分指代了每个智能体模型：对于智能体组件中包含的每个模型 $m_i$ ，指定 $\mathbb{Z_i}=\emptyset$ ，也就是说，没有辅助观测，这样每个主体就可以形成它的内部状态，从而基于它的局部动作和观察来行动。

Dec-POMDP问题优化器的目标是明确 $m$ 中未指定的元素： $\{\mathbb{I}_i\},\{I_{i,0}\},\{\imath_i\},\{\pi_i\}$ 。也就是说，需要对操作选择策略进行优化，并且需要对信息状态的表征和更新进行选择。这部分内容将在后面章节详细介绍，这些选择在有限和无限视界的情况下通常是不同：内部状态通常表示为树中的节点（针对前面所提到情况）或有限状态控制器（针对后面介绍情况）。
定义MPOMDPs：现在也能够给MPOMDP更加正式的定义。就和本章最开始所述，MPOMDP不能根据现在所提到的MME与Dec-POMDP进行区分。相反，它与Dec-POMDP仅在智能体的组件的部分定义上存在不同。如图2.10所示。特别的是，智能体内部状态集合就是联合信念的集合。这允许我们给出MPOMDP的正式定义：
在这里插入图片描述
定义11（MPOMDP）：一个多智能体POMDP（MPOMDP）可以定义成一个元组 $\langle OC,\mathscr{M}, m \rangle$ ，其中：

$O C$ 表示最优准则
$\mathscr{M}$ 表示MME
$m=\langle \mathbb{D},\{\mathbb{I}_i\},\{I_{i,0}\},\{\mathbb{A_i}\},\{\mathbb{O_i}\},\{\mathbb{Z_i}\},\{\imath_i\},. \rangle$ 为智能体组件的部分指代，对于每个智能体 $i$ ：
- 内部状态的集合就是共同信念的集合 $\mathbb{I}_i=\mathbb{B}$
- $I_{i,0}=b_0$
- 辅助观测是其它智能体 $o_{-i}=\langle o_1,...,o_{i-1},o_{i+1},...,o_n\rangle$ 的观测结果，通过即时通信获取，也就是 $\mathbb{Z}=\bigotimes_{j\ne i}\mathbb{O}_j$ 。
- 信息状态函数有联合信念的更新指定： $b_{t+1}=\imath(b_t,a_t,o_{t+1})$ 当且仅当 $b_{t+1}$ 是在 $b_t$ 基础上对于 $a_t,o_{t+1}$ 执行信念更新的结果，详见（2.1.2）。

可以看到在MPOMDP中定义了智能体组件中的更多元素。特别是，只需要明确由内部状态（即联合信念）映射到智能体行为的行动选择策略 ${πi\}$ 就可以求解。

2.4.5 部分可观测的随机博弈

Dec-POMDP是一个非常通用的模型，因为它处理了许多类型的不确定性和多个主体。但是，它只适用于合作智能体团队，因为它只指定一个（团队）奖励。Dec-POMDP的推广是部分可观测随机对策（POSG）。它具有与Dec-POMDP相同的组件，除了它指定的不是单一的奖励功能，而是一组奖励功能，每个智能体一个。这意味着，POSG假设自私的智能体想最大化他们的个人预期累积报酬。
其结果是，我们进入了博弈论领域：不再存在最优联合策略，仅仅是因为最优性不再被定义。相反，联合策略应该是（贝叶斯）纳什均衡，最好是帕累托最优的纳什均衡。然而，没有明确的方法来确定最优。此外，这种帕累托最优纳什均衡只保证存在于随机策略中（对于有限的POSG），这意味着不再可能执行暴力策略评估（见3.4节）。此外，基于交替最大化（见5.2.1节）的搜索方法不再保证对POSG收敛。Hansen et al.[2004]在第4.1.2节中提出的动态规划方法确实适用于POSG：它为每个智能体找到一组非支配策略。
尽管从计算角度来看，转向自私智能体的后果是严重的，但从建模角度来看，Dec-POMDP和POSG框架是非常相似的。特别是所有关于过渡和观察的动力学都是相同的，因此动作-观察历史和联合信念的概率计算转移到POSG设置。因此，即使本书中提出的解决方法可能不会直接转移到POSG案例中，但建模方面很大程度上可以。例如，将Dec-POMDP转换为一种集中式模型（见4.3节）可以转换为POSG设置[Wiggers et al.，2015]。

2.4.6 交互式POMDPs

Dec-POMDP和POSG都给MAS呈现了一个客观视角：它们呈现了整体情况和解决方法，并试图在同一时间给所有智能体找到解决方案。对MAS的另一种解决方案是从特定智能体角度进行考虑，本文称此为MAS的主观角度。
最简单的方法是尝试将主要智能体的决策指定过程建模为POMDP，该方法通过简单地忽略其它智能体，并将它们对于状态转换和观测的影响作为噪声。这种近似由一个缺点，那就是它降低了最有策略的价值。此外，它不能处理其它智能体可能导致的非平稳性（因为其它智能体的策略是动态，不平稳的。它们的信念或者内部状态会随着时间而发生改变）。
一个更加复杂的方式是让主要智能体维护其它智能体的显示模型，一边更好地预测它们。通过递归建模方法（RMM）[Gmytrasiewicz and Durfee, 1995, Gmytrasiewicz et al., 1998]，并给出了一个无状态的博弈框架，和交互式POMDP框架 [Gmytrasiewicz and Doshi, 2005]，将这种方法扩展到具有状态和观测的序列决策问题中。
一个更加普遍的想法如图2.11所示：主体智能体将建模交互状态为 $\widetilde{s}_i=\langle s,m_j \rangle$ ，由一个全局状态和一个针对其它智能体 $m_j$ 的模型共同构成当前智能体的环境。由于这种交互状态时POMDP的隐藏状态，它允许智能体处理部分可观测的环境，并建模另一个智能体模型的不确定性。在执行动作过程中，主体智能体对其它智能体的全局状态和模型具有交互信念（interactive belief）。
在这里插入图片描述

定义12：形式上，智能体 $i$ 的交互式POMDP（I-POMDP）可以表示为元组 $\langle \widetilde{\mathbb{S}}_i,\mathbb{A},T_i,R_i,\mathbb{O}_i,O_i,h \rangle$ ，其中：

$\widetilde{\mathbb{S}}_i$ 为交互状态集合
- $\mathbb{A}$ 为联合动作集合
- $T_i,R_i,\mathbb{O}_i,O_i$ 分别为智能体 $i$ 的转移函数，奖励函数，观测和观测函数。并且这些定义在联合动作中，如 $P (s^{'} ∣ s, a)$ 和 $R(\widetilde{\mathbb{s}}_i,a)$ ，但在每个体的观测中为 $P(o_i|a,s')$ 。

由于I-POMDP可以被视为一个定义在交互状态上的POMDP，POMDP信念更新可以被推广到I-POMDP场景中 [Gmytrasiewicz和Doshi, 2005]。直觉上，智能体使用模型 $m_j$ 中给出的概率 $\forall_j \text{Pr}(a_j|θ_j)$ ，来预测其它智能体的行动。

当考虑所谓的意图模型（intentional models）时，例如，当假设其它智能体也会使用I-POMDP。在这种情况下，如之前所述，I-POMDP的正式定义导致了一个无限的信念层次，因为智能体 $i$ 定义了它对模型的信念，从而也定义了其它类型智能体的信念，而其它智能体也定义了对智能体 $i$ 的信念，以此类推。针对这种现象， Gmytrasiewicz and Doshi [2005] 定义了有限嵌套的I-POMDP框架。该框架中，智能体 $i$ 的第0层信念为 $b_{i,0}$ ，这层信念是基于全局状态 $\mathbb{S}$ 的。第 $k$ 层信念为 $b_{i,k}$ ，它是基于全局状态和之其它智能体 $k - 1$ 层所有信念模型而指定的。有限嵌套的I-POMDP所允许的实际嵌套层数称为策略层数。