战术网络强化学习环境-基于多智能体的场景生成

赛亚茂

已于 2022-09-22 16:48:14 修改

阅读量1.7k

点赞数

分类专栏：集群机器人文章标签：网络人工智能强化学习

于 2022-09-22 16:47:47 首次发布

本文链接：https://blog.csdn.net/shengzimao/article/details/126994868

版权

集群机器人专栏收录该内容

34 篇文章

订阅专栏

在这里插入图片描述

1.背景

主要任务：

在这里插入图片描述

具体来说研究的对象的建模方法就是去中心化的部分可观测马尔可夫决策过程(Dec-POMDP)：

在这里插入图片描述

其后面可以参考的具体研究文献如下：

Bernstein, D.S., Givan, R., Immerman, N. and Zilberstein, S., 2002. The complexity of decentralized
control of Markov decision processes. Mathematics of operations research, 27(4), pp.819-840.

本篇文献主要是在DIL网络的基础上，充分考虑其耗时性以及其部分网络节点对全局网络节点影响的弊端的基础上。发展出了以下的一种战术作战环境：

在这里插入图片描述

在原有的基础上需要克服的挑战/存在的假设有如下主要几点:

在这里插入图片描述

多智能体场景下，每个个体只能观测到其周围的环境状态。观察地图上当前位置周围环境的特征，主要包括：本团队，对方团队，障碍，目标。这里在搭建环境时，需要注意获得的奖励应遵循的原则是：当达到以上目标时，其获得的奖励与赢得比赛获得的奖励要相对而言更小！
每个智能体需要能够同其他智能体进行状态合并，当智能体同其他智能体进行再融合或者分离的时候，将不能实现对其他个体的直接可观测，并且无法实现它们自己网络状态的共享!
每个智能体需要学会如何被训练得能和其他个体进行珍贵的信息共享，观测局部的地图信息与网络信息。并同其他合作者采取正确的动作一起进行合理规划例(朝向东西南北)这种规划以达到打败敌人团队的目的!

目前绝大部分的强化学习的结构都是基于以图像状态信息Images作为输入状态state的。

个人理解这里是对部分可观测图像信号进行图像输入，后根据一系列的诸如卷积等操作进行特征提取，再将特征提取之后的数据输入到神经网络之中。

而在这篇文章中，其强调的是将动态网络的结构转化为一种向量描述，在此基础上进行结构的优化设计，具体而言采用的便是GNN结构(图神经网络)!!!其相关的文献如下所示:

Xu, K., Hu, W., Leskovec, J. and Jegelka, S., 2018. How powerful are graph neural networks? arXiv
preprint arXiv:1810.00826.

其中，GNN的主要优势在于处理大规模图结构的数据!

在这里插入图片描述

同样在这篇文章中还谈到，目前还考虑到将图神经网络GNN与强化学习RL结合起来将是一个十分重要的创举!这方面的起步比较早，或者说才刚刚开始!

在这里插入图片描述

该文章还推荐了一些重要的文献关于一些多智能体的强化学习算法：

Lowe, R., Wu, Y., Tamar, A., Harb, J., Abbeel, P. and Mordatch, I., 2017. Multi-agent actor-critic
for mixed cooperative-competitive environments. arXiv preprint arXiv:1706.02275.
Foerster, J., Farquhar, G., Afouras, T., Nardelli, N. and Whiteson, S., 2018, April. Counterfactual
multi-agent policy gradients. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No.1).
Sheng, J., Wang, X., Jin, B., Yan, J., Li, W., Chang, T.H., Wang, J. and Zha, H., 2020. Learning
structured communication for multi-agent reinforcement learning. arXiv preprint arXiv:2002.04235.
Jiang, J., Dun, C., Huang, T. and Lu, Z., 2018. Graph convolutional reinforcement learning. arXiv
preprint arXiv:1810.09202.
Liu, Y., Wang, W., Hu, Y., Hao, J., Chen, X. and Gao, Y., 2020, April. Multi-agent game
abstraction via graph attention neural network. In Proceedings of the AAAI Conference on Artificial
Intelligence (Vol. 34, No. 05, pp. 7211-7218).

2.环境架构中的一些重要概念

以下文献主要讨论了利用交互信息训练去中心化强化学习个体，并且提高DIL网络资源的利用率的方法：

T. Möhlenhof, N. Jansen, and W. Rachid. “Reinforcement Learning Environment For Tactical
Networks,” International Conference on Military Communications and Information Systems (ICMCIS),2021.

中间的一些部分概念还没看懂，主要是信息量太大，专业术语太多:

在这里插入图片描述

由于对多智能体中个体的训练需要极大数量的场景的限制，因此在这里提出了一个辅助战术模型的概念

(additional Tactical Model)。在这里有几点需要特别强调一下:

战术模型Tactical Model的目的是为了仿真真实军事单元的行为(比如说像移动、攻击、收发信息等等这一类的动作)。
下面的一部分我由于翻译或者能力有限也没有看懂：
在以下文献中深入讨论了战术网络的整体架构环境：

Shi, Y., Huang, Z., Wang, W., Zhong, H., Feng, S. and Sun, Y., 2020. Masked label prediction:
Unified message passing model for semi-supervised classification. arXiv preprint arXiv:2009.03509

3.方法

这里存在主要的两类强化学习方法cross-layer agents/tactical agents。主要的战术模型架构如下:

在这里插入图片描述

其中各个部分的职责如下所示:

Tactical Agent: 战术代理，控制实际军事单元，在实际战争游戏地图上移动移动与产生动作。可作为训练的对象，依赖于大量由战争游戏生成的规范场景进行训练。
Tactical Environment:战术环境，对军事单元与军事游戏进行仿真。该战术环境同战术代理的连接依赖于基于OpenAI Gym的强化学习API。
Terrain Model：地形模型，根据当前计算无线电信号强度，通过模拟单元之间的物理无线电传播来确定单元的位置。以达到根据通信传输部分确定实际位置的目的，属于是对位置信息的部分可观测！该部分地形模型需要地形特征与障碍情况考虑在内！
Tactical Replay:战术缓存，接收由Tactical Environment中产生的各个Tactical Agent的动作action，同时还接收Terrain Model各个代理的位置position信息。该战术缓存极为重要，其是用来训练生成合适的场景训练CL代理，是整个战术模型的输出(输出战术代理的位置position，动作action以及SNR)。CL 环境使用这些值来模拟 C2IS 应用程序（借助动作/命令）和战术网络。
SNR：信噪比：每对单位之间和对应的位置position也存储在战术回放Tactical Replay的数据库中。

后面一节将更加详细的讨论Tactical Environment和Tactical Agent的更多实现细节，而对Terrain Model和Tactical Replay将不再更多的加以描述！

3.1 战术环境(Tactical Environment)

在这里插入图片描述

如上图所示，该战术环境是一个离散的多智能体存在的游戏环境，有多个战术代理在相同的战术环境中进行交互与执行动作，例如蓝色作战单元与红色作战单元(互为博弈)。在该环境下，单个智能体的状态转移不仅仅依赖于当前观测与动作，更多的还会依赖同时刻己方所有的战术代理的观测与动作！

每个战术代理同时担任着该作战单元的指挥官与司机的角色。该环境包含不同作战尺寸的红蓝双方作战单元，双方担任不同的作战目标，彼此进行零和博弈！对于蓝方，这里考虑存在的两种奖励模式：

奖励模式1：到达确定的战术点 Points of Interest (PoI) ，此时给予小的作战奖励。
奖励模式2：消灭敌军大部分目标，相比于奖励模式1，将会得到更大的作战奖励。

以上两种奖励模式，最后的训练环境要求区分短期回报与长期回报！

3.2 传感器模型(Sensor Model)

对于单个战术单元而言，其通过传感器的观测所能达到的视野范围遵循以下原则：

局部可观测性：每个战术单元只能通过视觉传感器观测到地图上自己一部分周围的环境，在此是以战术单元为圆心，以观测范围(observation range)为半径画圆。这种方法其实是对站在车顶上的人能观测自己周围一部分环境的模拟。
观测奖励函数：当作战单元观测到有障碍物在其作战范围时、或己方队友在他们的作战范围内、或敌方在其作战范围之内、或到达POI点时将会反馈一个小的奖励值。
视野共享性：如果其他的战术单元在同样的团队通信网络(team network)下建立了连接，那么建立通信网络联系的单元将共享可观测的视野。这种连接的建立是基于两个作战单元的距离小于一个确定阈值(radio range)。部分可观测的视野信息描述如下：
意图共享性：同样如果其他的战术单元在同样的团队通信网络(team network)下建立了连接，那么该联系下的任意两个作战单元将共享其作战意图与作战信息！

在这里插入图片描述

3.3 动作模型(Action Model)

每个作战单元能执行20个动作。对于一个战术单元而言，其采取动作的过程为：一个作战单元可以在四个方向移动(move)，瞄准(tag)另方向一个单位并将其击毁,并向另一个单元发送命令(Command)。其中tag和command是分段执行的。如果一个战术单元想要从他的角度击毁对方团队成员，他必须学会在正确的扇区中执行标记(tag)命令。单个战术单元的动作空间为：

在这里插入图片描述

3.4 战术代理(Tactical Agent)

该节将会讨论战术代理将会如何选择采取动作。每个战术代理的观测空间由障碍物，队友，敌方，关键节点PoI组成，上述目标包含于一个战术代理的观测圆内部。实际上正是由战术代理的局部观测信息决定了每个代理在每个时间段内的局部状态。由于单个代理的视野被限制于局部网络的信息之中，且全局信息同时还要被共享，因此这是一个重要的DIL 优化问题。

之前提到，当采用相同的通信网络在多个战术代理之间实现局部信息共享时，如何将单个战术代理局部观测到的信息与总体的观测信息实现融合，这就涉及到图神经网络(GNN)的方法。这与传统处理静态图结构数据的平面表示方法相比，GNN对于编码动态图结构的数据具有天然的优势。通过使用 GNN，战术代理的状态是由其两跳邻居的组合形成，然后进一步处理。

战术代理合并局部观测状态显示为观测状态的方法的一个示例如下图所示：

在这里插入图片描述

由于我目前并未学过GNN，我不太理解其示例的描述，因此将其截图展示如下：

在这里插入图片描述

所以说，在战术代理这一部分中，使用GNN的目的实际上是为了：在 GNN 的帮助下，战术代理能够根据战术代理的局部观测，聚合动态网络结构以计算动态网络的编码作为战术代理的状态，以形成 Deep-RL 算法的输入。

在强化学习的训练阶段，将采用带有Actor-Critic架构的PPO算法对战术代理进行巡礼。其中Actor与Critic的网络结构如下图所示：

在这里插入图片描述

使用GNN+DRL的方法训练多战术代理环境的优势在于该网络可支持：由可变数量的智能体离开和重新加入形成的互联网络。

4.实验部分

该实验的参数设置如下：

蓝方3个VS红方5个
每回合游戏中团队规模随机选取
环境中的 PoI 在开始时出现，如果被单位到达，则会随机重新出现，或者会在地图上的特定区域累积
战术代理到达PoI返回奖励0.5，如果一个战术单元tag另一个战术单元，将会返回奖励1，地方将得到奖励-1。如果任何一方超过1/3的成员被击溃，回合将会结束，胜利方将会返回奖励10，失败方将会返回奖励-10。

游戏最后的结果展示为：

在这里插入图片描述