多智能体强化学习_去中心化多智能体强化学习

最新推荐文章于 2023-03-12 11:32:48 发布

weixin_39912984

最新推荐文章于 2023-03-12 11:32:48 发布

阅读量1.2k

点赞数

文章标签：多智能体强化学习

本篇文章将对以下三篇论文进行总结：

Fully Decentralized Multi-Agent Reinforcement Learning with Networked Agents
SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation
Value Propagation for Decentralized Networked Deep Multi-agent Reinforcement Learning

Fully Decentralized Multi-Agent Reinforcement Learning with Networked Agents

本文提出了一种新的 MDP，称为 Networked Multi-Agent MDP，并在其上提出了两种去中心化的 Actor-Critic 算法，最后提供了在使用线性函数估计器情况下的收敛性证明。

为了引出 Networked Multi-Agent MDP，我们首先从 single agent 开始。这里之所以再对强化学习的一些基础进行回顾，是因为本篇论文采用的强化学习优化目标是平均回报（average reward），具体可参见我之前的文章：

在使用平均回报后，相应的状态-动作值函数（Q 值函数）也相应的变为差分状态-动作值函数（差分 Q 值函数）：

那么对应的策略梯度定理如下：

可以看到策略梯度定理的形式不随着优化目标的改变而改变。在将

替换为状态值函数

之后，我们引入优势函数：

同时为了减少参数数量，我们可以用状态-动作值函数（Q 值函数）来表示状态值函数，所以有：

接下来，令

表示 score function 的采样估计值，则传统的 actor-critic 算法的参数更新过程包含以下几个步骤：

其中

代表梯度下降的步长，

表示平均收益（return）的无偏估计，并且

。

在介绍完背景知识之后，下面我们给出 Networked Multi-Agent MDP 的正式定义：

（Networked Multi-Agent MDP）。令
代表

个智能体之间的随着时间变化的通信网络。一个网络化的多智能体马尔可夫决策过程（Networked Multi-Agent MDP）可以由以下五元组表示：

。其中

表示所有智能体共享的全局状态空间，

表示智能体

的动作空间。另外，

表示所有智能体的联合动作空间。

表示智能体

的局部回报函数，

表示此马尔可夫决策过程的状态转移概率。此外，我们假定状态以及联合动作是可以被所有智能体观察到的，只有回报是每个智能体独有的。

因为每个智能体的回报是独立的，并且动作也是独立执行的，因而我们认为我们的模型是完全去中心化的。

在给出了网络化多智能体马尔可夫决策过程之后，我们接下来给出解决此 MDP 所定义的目标优化函数，这里值得注意的是本文主要关注于协作环境，竞争环境以及混合环境不在本论文的考虑范围之内：

对应的，我们有全局差分状态-动作值函数（Q 值函数），此函数是所有智能体共享的：

由于本文提出的是多智能体问题下的 actor-critic 算法，还特意提出了一个多智能体强化学习策略梯度定理：

（多智能体强化学习策略梯度定理）。对于任意
，令

表示策略且令

代表

式代表的全局长程平均收益。另外，令

以及

分别表示

式以及

式定义的状态-动作值函数和优势函数。对于任意

，我们定义局部优势函数

：

其中

表示除

外所有智能体的联合动作。

，那么策略梯度计算公式如下：

上述策略梯度定理表明，使用对应的局部 score function

，以及每个智能体对于全局状态-动作值函数（Q 值函数）或者全局优势函数的无偏估计就可以得到每个智能体的策略梯度。然而，如果每个智能体只使用局部信息，因为上述全局函数需要所有智能体的回报

才能被无偏估计，因而我们需要设计一个基于一致性约束的多智能体强化学习算法。该算法通过通信网络来在智能体之间传播局部信息，从而促进智能体之间协作关系的建立。

有了以上理论基础之后，我们首先提出一种基于局部优势函数

的算法，即每个智能体都维护属于自己的一个

，该值函数通过

参数化，记为

。由于

是一个全局共享的函数，因而我们通过通信网络让每个智能体

都与其网络中的邻接智能体分享自己的局部参数

，从而满足全局的一致性约束。这样的话，由于每个智能体都拥有一份全局

函数的副本，就可以使用上述多智能体强化学习策略梯度定理来更新自己的策略网络参数了。具体算法伪代码如下：

我们注意到在算法1中，在前两个 for 循环之间出现了中断，这是因为在估计

值函数时需要用到当前策略下下一个时间步输出的动作

，这就会降低去中心化训练的效率。我们想只使用当前时间步的数据

，可以通过更改优势函数的计算方式来达到这一目的：

可以看到，使用贝尔曼方程替换

值函数后，我们需要估计的函数由一个变成了两个，分别是

以及

。所谓天下没有免费的午餐，这就是只使用当前时间步数据所带来的代价。因而，对应的 actor-critic 算法 2 的参数更新包括如下步骤：

下一步在更新策略参数时，虽然

的形式与优势函数一致，但是并不能直接使用该值作为优势函数的采样估计值来去更新策略网络的参数。这是因为优势函数中使用的回报时全局的平均回报，而

使用的回报时关于每个智能体的局部回报。为此，我们需要通过优化以下目标再引入一个函数来去估计全局的平均回报：

为了能够去中心化地优化上述目标，可以将其转化为下述等价形式：

那么参数

的更新步骤如下：

综上所述，我们一共有三部分参数需要满足一致性约束，和算法 1 相比多了两部分参数。下面是算法 2 的伪代码：

SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation

本文从贝尔曼最优方程出发，将值函数与策略的优化目标转化为一个 primal-dual 问题，并给出了非线性函数估计下的收敛性证明。

我们有如下贝尔曼最优方程：

为了能够显式地优化策略，我们可以将上式转化为如下等价形式：

接着我们遵循时序差分学习的模式，最小化差分误差（TD error）：

直接优化上述优化目标存在以下两个问题：

优化目标中的
算子将会使得优化目标非光滑
二次函数中的条件期望项使得要想得到该二次函数的无偏梯度估计，需要进行两次独立采样（二次函数的导数计算需要计算两次条件期望项），这在现实场景中时很难满足的。

为了解决第一个问题，我们采用 Nestorov 平滑方法引入熵正则来对优化目标进行平滑：

这里故意采用熵正则而不是其他平滑函数应该是为了与目前学术界引入熵正则的形式保持一致。接下来我们可以进一步把

算子给去掉。具体来说，上式可由下式近似表示（log-sum-exp 是

算子的一个有效地平滑估计）：

因而我们有了一个新的

算子，但是我们不能直接使用该算子采用时序差分学习的方式来更新参数，我们首先要证明这个新算子保持了原先算子下述三个重要特性（证明过程略，直接给出结论）：

根据第三个性质，我们就可以使用时序差分学习的方式来更新值函数的参数，具体来说，我们要优化下述目标函数：

至此，我们解决了上面提到的第一个问题。但是第二个问题还是没有得到解决，为了解决第二个问题，我们需要找到一个函数来去替换掉二次函数，而正好我们有：

因而我们的优化目标转化为：

接着通过以下代换：

最终优化目标即为：

那么为什么要转化为这种形式呢？原因是因为再 PCL（Path Consistency Learning）算法中是通过优化

式的上界：

来去解决二次采样问题的，但这会引入方差，因而本文通过代换转化为

式的形式，把第二项解释为方差缩减项。既然第二项是方差缩减项，为了方差-偏差均衡，可以将最终的优化目标转化为：

由于内部对偶问题的优化函数是个二次函数，可以直接得到闭式解，这里不过多说明。对于外部原始问题，本文采用 Stochastic Mirror Descent 算法（随机梯度下降加上 bergman divergence 惩罚项，KL散度是一个特例）：

其中

这里再额外补充两点：

与 TRPO 以及 NPG 算法的联系

对偶变量的物理意义

关于收敛性证明部分这里先按下不表。可以看出 SBEED 算法更新策略以及值函数的参数更新公式与 actor-critic 算法的形式是一致的。

Value Propagation for Decentralized Networked Deep Multi-agent Reinforcement Learning

最后一篇论文可以认为是前两篇论文的结合：利用了第一篇论文对于 Networked Multi-Agent MDP 的定义，将 SBEED 算法扩展到多智能体问题上，同时为了能够去中心化实现，在优化问题上加入了一致性约束：

其中

。

为了使得参数满足一致性约束，本文没有采用第一篇论文中简单的求平均的做法，而是采用了 Hong et al. 2017 中提出的分布式优化算法Prox-PDA（这里只以

举例，

的更新也是一样）：

最终算法框架如下：

还有个采用 Adam 算法代替随机梯度下降的加速版本：

最后还有个 Mutli-Step 的扩展（ SBEED 论文里也已提到），我们可以将

算子的性质三扩展为：

从而使得：

weixin_39912984

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
多智能体强化学习_去中心化多智能体强化学习

本篇文章将对以下三篇论文进行总结：Fully Decentralized Multi-Agent Reinforcement Learning with Networked AgentsSBEED: Convergent Reinforcement Learning with Nonlinear Function ApproximationValue Propagation for Decentr...
复制链接

扫一扫