多智能体强化学习

最新推荐文章于 2024-08-13 09:46:33 发布

九衢lucky

最新推荐文章于 2024-08-13 09:46:33 发布

阅读量389

点赞数 4

文章标签：机器学习

本文链接：https://blog.csdn.net/wangtong666/article/details/134536513

版权

多智能体强化学习

多智能体系统（MAS）中的每个智能体通过与环境的试错联系来解决顺序决策问题。然而，它比单个智能体场景更复杂，因为环境返回的下一个状态和奖励基于所有智能体的联合行动，使得环境对于任何智能体都是非马尔可夫的。随机博弈（SG）可以用来建模多智能体序贯决策问题。定义2（SG）：随机博弈可以表示为元组

其中， $N$ 是智能体的数量， $S$ 是环境的状态集， $A^{i}$ 是智能体 $i$ 的动作空间， $R^{i}$ 是智能体 $i$ 的奖励函数， $p$ 是基于联合动作 $a$ 的转移概率，𝛾 ∈ [0, 1]是随时间变化的折扣因子。

多代理场景中的状态-动作和值函数的定义等式：

这里，用 $\pi ^{i}$ 和 $\pi ^{-i}$ 来区分智能体和其他智能体之间的策略，同样，我们可以用 $a^{i}$ 和 $a^{-i}$ 来表示联合行动 $a$ 。根据执行过程中是否涉及智能体之间的通信，将常见的求解SG分为学习合作和学习通信。

学习合作

学习合作的典型方法涉及集中式训练和分散式执行（CTDE），在训练过程中利用全局或通信信息，而在执行阶段仅使用当前智能体的观测信息。它还包括基于价值的和基于策略的MARL方法。

基于价值的MARL更新的公式：

基于策略的MARL：环境的状态由多代理场景中所有代理的操作决定。基于价值的方法由于不稳定的环境而具有挑战性，并且随着智能体数量的增加，基于策略的方法的方差变得更加突出。一种多Agent场景下Actor-Critic方法的变体--多Agent深度确定性策略梯度（MADDPG），它在对每个Agent进行强化学习训练的过程中考虑其他Agent的动作策略，而在测试阶段只考虑个体信息.多代理确定性策略梯度可以写为：

然而，随着智能体数量的增加，评论家网络中的估计误差也会增加，这使得MADDPG难以扩展到更大的环境。为了解决这个问题，研究人员提出了注意力机制，允许代理动态地关注相关信息。例如，MAAC，G2ANet 和HAMA 算法使用图形结构来建模智能体关系，并采用注意力机制来衡量其相关性。这种方法在具有大量代理的环境中显示出有希望的结果。MAS的另一个挑战是需要适应协作策略的变化。FACMAC算法通过结合集中式策略梯度估计来优化联合动作空间来解决这个问题。该方法已被证明在具有大规模连续动作的环境中优于MADDPG和QMIX。

基于平均场的MARL：上述方法均基于CTDE训练框架，有效解决了完全去中心化训练框架中的非马尔可夫环境问题和完全中心化训练框架中的高计算复杂度问题。然而，现有的MARL方法通常仅限于少数代理，可扩展性仍然是一个具有挑战性的问题。

学习通信

学习通信的目的是让智能体学习何时与哪些智能体以及要通信的信息，可以将其归类为加强和可区分。

总体而言，这些算法的目的是提高MAS的可扩展性和非平稳性，允许代理从其他代理的经验，并在复杂的环境中实现更好的性能。

智能制造

智能制造是先进技术的集成，例如，物联网、人工智能等，融入制造过程，优化生产流程。至于智能制造，MARL是一种很有前途的方法。在智能制造的背景下，MARL可以用作生产调度，车间工业机器人控制，质量控制和设备维护的工具，以实现智能和高效的生产过程。

车间调度是智能制造中的一个关键挑战，因为它涉及复杂的决策过程和资源分配问题。传统的方法通常是基于规则或静态算法，但这些方法往往不能适应不断变化的生产环境。近年来，MARL已被引入到车间调度，以提高车间任务调度的效率和准确性，通过学习和适应策略，从一个不断变化的环境。在解决高维动作空间问题的资源抢占中。一种用于作业调度的MARL算法。在该算法中，环境被建模为一个马尔可夫决策过程，这是分散的和部分可观察的。每个作业都被看作是一个智能体，它选择可用的机器人。一种多智能体制造系统，用于在多变的车间环境中进行高效和自主的个性化订单处理。制造设备被构建为具有AI调度器的代理，该调度器根据车间状态生成优秀的生产策略，并通过PPO算法定期进行训练。该算法可以处理资源或任务干扰，并获得满足不同性能指标的解决方案。根据MARL提出了一种名为DeepMAG的新模型，用于灵活的作业车间调度。DeepMAG为每台机器和作业提供一个智能体，他们一起工作以找到最佳行动。在工业4.0中，设计了一个用于车间调度问题的用户友好的MARL工具，它为用户提供了与学习算法进行交流的机会。用户可以保持Q-Learning生成的最佳时间表，也可以更改它以满足约束条件。