协作多智能体强化学习中的回报函数设计

最新推荐文章于 2024-06-24 00:55:00 发布

PaperWeekly

最新推荐文章于 2024-06-24 00:55:00 发布

阅读量4k

点赞数 8

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/105926068

版权

©PaperWeekly 原创 · 作者｜李文浩

学校｜华东师范大学博士生

研究方向｜强化学习

下面总结几篇涉及到为使得多智能体强化学习（MARL）算法能够更好地解决协作问题，而对智能体回报函数（reward function）进行设计的近年论文。这些论文主要可分为以下两个方向：1）解决多智能体社会困境（social dilemma）问题；2）解决多智能体探索（exploration）问题。

多智能体社会困境问题

社会困境问题，简单来说，可以如下解释：智能体会因为为了自身短期利益做出的行为而损害集体长期利益。下面介绍几篇解决此问题的工作（按时间排序）。

AAMAS '18

论文标题：Prosocial learning agents solve generalized Stag Hunts better than selfish ones

论文来源：AAMAS '18

论文链接：https://arxiv.org/abs/1709.02865

这篇工作属于比较早期的工作，其解决的问题也都是只有两个智能体的问题。并且这里所用的多智能体算法属于 Independent MARL 方法，即每个智能体都将其他智能体当作环境的一部分。这篇论文不考虑 MARL 中的环境不平稳（non-stationary）问题。

这里所谓的一般雄鹿狩猎（generalized Stag Hunts）问题类似于“囚徒困境”问题，数学定义如下：

▲ 图1：Generalized Stag Hunts Problem

其中，。这样一个问题包含两个纳什均衡（Nash equilibrium），分别是（Hunt，Hunt）以及（Forage）。

我们把前者称为收益主导（payoff dominant），后者称为风险主导（risk dominant）。其次，从可以看出，一旦一个智能体选择 Hunt 另一个智能体选择 Forage，只有选择 Hunt 的智能体会收到惩罚。

下面考虑两个智能体不断地面临上述问题，最后更可能收敛到哪一个纳什均衡呢？假定两个智能体最开始互相认为对方会有的概率选择 Hunt 动作，并且智能体根据这个概率进行最优的决策。

同时，智能体会根据对方做的真实决策，以正确的方向更新这个概率（即如果对方选择 Hunt，那么概率增加；否则减少）。

那么我们可以得出，如果，那么智能体就会选择 Hunt 动作，据此我们就可以计算出一个关键的置信度。有了这个关键的置信度，我们就可以知道两个智能体更可能收敛到哪一个纳什均衡：

▲ 图2：基于置信度的算法的收敛方向，依赖于初始状态以及整个收益矩阵 payoff matrix。这对于使用 action value 的强化学习方法同样适用。

下面我们考虑如何设计一个算法能够使得两个智能体能够收敛到收益主导的纳什均衡。首先引入以下定义：

一个亲社会的（prosocial）智能体的效用函数（utility）如下：

其中代表智能体的亲社会等级。表示智能体是完全自私的（perfectly selfish），表示智能体是完全亲社会的（fully prosocial），表示智能体是完全无私的（selfness）。

由此，我们可以得到以下定理：

定理：在一个一般的雄鹿狩猎问题中，（Hunt，Hunt）收益主导的纳什均衡的吸引池（basin of attraction）的大小随着双方智能体亲社会级别的增加而增加。存在，若任意一个智能体的，那么上述一般的雄鹿狩猎问题只有一个内部收敛子（interior attractor），即收益主导的纳什均衡（Hunt，Hunt）。

下面给出证明：

引入亲社会效用函数后，如果

那么智能体就会选择 Hunt 动作。经过简单计算，可以得出最小的满足。通过一般雄鹿狩猎问题的定义可知，三个括号项都为严格正值，因而，的值随着的增大而减小（即吸引池大小随着的增大而增大）。

令可以解得最优为。根据一般雄鹿狩猎问题的定义，有，因而。

将其扩展到大于两个智能体的场景（并不能扩展到一般的多智能体场景，实质上还是两个智能体），我们可以得出以下引理：

对于任意对称游戏，如果该游戏的纯粹均衡（pure equilibria）是对称的，且任意一对策略的子收益矩阵满足一般雄鹿狩猎问题的定义，则上述定理同样成立。

上面引理的定义这里不再详细推导了，感兴趣的读者可以参考原论文。

实验部分，作者在简单环境（matrix game）以及复杂环境（markov game）下，以及两个智能体以及多个智能体条件下，都进行了实验。其中前者使用的是 REINFORCE 算法，后者使用的是 A3C 算法。

▲ 图3：在雄鹿狩猎问题中，采用策略梯度算法训练的自私智能体无法取得很好的性能，但是即使只有一个智能体是亲社会的，最后都能收敛到一个更好的结果，即使不能保证。对于多个智能体，亲社会智能体将与其连接的智能体的收益进行求和或者平均。将雄鹿狩猎问题扩展到多个智能体的环境，有时只有一个亲社会智能体也能够显著提升效果，例如将星状网络的中心智能体变为亲社会智能体；但有时即使有多个亲社会智能体，最终收敛的效果也不尽人意，例如 Weak Link 游戏以及全连接网络的雄鹿狩猎。

▲ 图4：虽然马尔可夫游戏有更复杂的策略空间，但是依旧保留了雄鹿狩猎问题的高层属性，即社会困境。

▲ 图5：风险增加会导致收敛到需要更少协作的纳什均衡，但赋予智能体亲社会性可以提升智能体间的协作能力，从而收敛到更好的结果。亲社会性在 Markov Stag Hunt 和 Harvest 环境中风险极高的情况下影响最弱。

亲社会性同样存在很多局限性。首先，如果游戏（或者游戏中的某些部分）不属于雄鹿狩猎游戏，那么赋予一个智能体亲社会性可能或引入新的次优的纳什均衡。

例如，在社会困境中一个亲社会智能体可能会被其同伴所适应。其次，在一个智能体的动作只会对其余智能体造成微弱影响的环境中，亲社会回报将会增加智能体收益的方差，从而使得强化学习算法收敛速度变慢。

最后，本文假设智能体能够对其余智能体的行为做出最优回应，但是当智能体无法做出最优回应时，做出自私的决策可以有更好的结果。本文关注于亲社会性是因为这是一个只改变智能体回报函数的简单方法。

最后作者提出了如下三个值得思考的问题：

如何在智能体学习的过程中显式地考虑其余智能体的影响，而不是像本文一样独立学习（这个已经有一些工作）？
由于深度强化学习引入函数估计，如何设计一个好的网络结构？
人类的活动中，自身很难收敛到收益主导的纳什均衡，但是引入人工智能体后，可以引导人类群体收敛到更好的结果，如何将本文的结果扩展到人机协同中？
社会困境与更好地协作之间有何联系？

ICLR 2018

论文标题：Consequentialist Conditional Cooperation in Social Dilemmas with Imperfect Information

论文来源：ICLR 2018

论文链接：https://arxiv.org/abs/1710.06975

本文考虑的问题是，使用强化学习方法解决只有部分观察（部分观察到环境以及其余智能体的动作）的社会困境。

最简单的社会困境即囚徒困境（Prisoner's Dilemma, PD），两个智能体在两个动作中选择其一，合作或背叛。互相协作双方可以获得最高的收益，但是无论一个智能体选择什么动作，另一个智能体都可以通过背叛得到较高的收益（与雄鹿狩猎问题类似）。

当上述问题变成一个重复问题时，即两个智能体不断面临囚徒困境，目前比较好的策略是“以牙还牙” （tit-for-tat, TFT）。TFT 策略很简单，即复制另一个智能体上一轮的动作，用未来的协作来回馈现在的合作。

TFT策略有以下几个特点：1）易于解释；2）从协作开始；3）如果另一个智能体同样选择协作，则会收到很高的收益；4）可以避免被适应；5）该策略会原谅另一个智能体的背叛行为。

具体看一个例子，假定现在的收益矩阵如下所示：

我们假定智能体使用 TFT 策略，则第一轮它会选择协作动作。下面我们看做不同动作时的情况。如果一直选择合作，那么，

反之，如果其一直选择背叛，那么就会以牙还牙。

而如果中途又选择协作，则接下来也会选择合作，会原谅其背叛行为。如果两个智能体都遵循 TFT 策略，那么最终这个连续的囚徒困境问题最终就会收敛到收益主导的纳什均衡。

TFT 属于条件协同（conditionally cooperative）策略的一种，即使用这种策略的智能体只有当某种特定条件满足时（对于 TFT 来说，这个条件即另一智能体上一个动作选择协同）才会选择协同。

然而 TFT 策略需要对另一智能体的行为具完美的观测，且需要完美地理解另一智能体的行为的未来结果。

如果信息是不完美的，则智能体必须依靠其能够观测到的信息，来预测另外智能体是否协作并由此进行回应。

本文表明，当游戏能够遍历所有状态（ergodic），则观察到的回报能够作为统计量——如果当前总回报（平均回报）超过某一与时间无关的阈值（通过使用强化学习算法进行自我博弈计算），则智能体选择协作，否则不协作。

本文将上述过程称之为结果性条件协作（consequentialist conditional cooperation，CCC）。

本文的实验环境为 Fishery。在 Fishery 游戏中，两个智能体生活在有鱼出现的湖泊的两侧。该游戏智能体只拥有部分观测，因为智能体无法观测到整个湖面发生的情况。鱼随机产卵，从未成熟开始，从一侧游到另一侧并变得成熟。

智能体可以在湖边捉鱼。捕捞任何成熟度鱼类都能获得回报，但成熟的鱼类更有价值。因此，合作策略是指将幼鱼留给另一智能体的策略。但是，存在一种背叛策略，即既捕捉幼鱼也捕捉成熟鱼。

下面我们将协作策略记为，背叛策略记为，并且假定一个纳什均衡策略对满足以下性质：1）对于两个智能体来说，上述背叛策略对在长期来看相比于最优策略获得的收益更低；2）如果某个智能体使用混合策略，即某些时刻采用协作策略，某些时刻采用背叛策略，则有

第二个假设表明，即使智能体只在某些时刻使用背叛策略，也可使得其收益增加（虽然这是建立在损害了集体利益的基础上）。

为了使用 CCC 策略，智能体需要维护一个当前时刻的平均回报。给定一个阈值，智能体在时执行协作策略，否则执行。令表示两个智能体执行的概率，表示智能体自身执行另一智能体执行的概率。

令

最低0.47元/天解锁文章

PaperWeekly

关注

8
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫