08MARL深度强化学习 independent learning

最新推荐文章于 2024-08-12 10:31:45 发布

爱宇小菜涛

最新推荐文章于 2024-08-12 10:31:45 发布

阅读量892

点赞数 23

分类专栏：多智能体文章标签：人工智能机器学习算法深度学习

本文链接：https://blog.csdn.net/m0_66988867/article/details/136130057

版权

多智能体专栏收录该内容

14 篇文章 6 订阅

订阅专栏

本文介绍了基于值的独立学习算法（如IDQN）在多智能体环境中的局限，如经验回收池的问题。提出了解决方案，如小经验回收池、重要性采样和考虑其他智能体策略的指纹。此外，独立策略梯度方法如A2C在多智能体onpolicy的优势也被讨论，强调其在适应变化环境中的重要性。

摘要由CSDN通过智能技术生成

前言

记录independent learning算法的基础概念，使用一些RL算法训练多智能体

1、Independent Value-based Learning

基于值的独立学习算法：每个智能体根据自身的观测与动作学习价值函数，以IDQN为例，每个智能体根据自身的观测历史学习Q函数，智能体i的损失函数为：
在这里插入图片描述
总的损失函数就是将所有智能体的损失函数进行求和，优化过程为最小化总损失函数与每个智能体的损失函数

**replay buffer局限：**代表经验收集与再采样的过程，而在IDQN中存在一定问题，因为在多智能体环境中，每个智能体不仅被他们自身的观测与动作所决定，同时受到其他智能体的影响，因此每个智能体的观测与动作会依赖于其他智能体的策略，当采用经验回收池时，假设了经验随着时间具有相关性，而在多智能体环境中，这种相关性会快速过时

**举例解释：**在两个智能体学习围棋的任务中，智能体1采取了特定的策略，短期有较好的收益而长期属于弱策略，智能体2没有采用特定的策略，在刚开始的阶段智能体1会获得奖励而在经验池中存放数据，而随着时间的进行，这些数据在后期并不能带来收益，导致智能体1会持续学习弱策略

解决方法：
小的经验回收池：小的经验回收池使得快速达到容量，因此会移除老的数据，能够降低回收池中经验过时的问题
重要性采样权重（Importance Sampling Weights）：经验池储存策略与经验，通过重要性采样的权重校正选择动作的概率
fingerprints of agent policies：拓展每个智能体的观测，使得智能体能够考虑其他智能体的策略的变化

2、Independent Policy Gradient Methods

独立策略梯度方法：通过智能体自身的动作以及奖励计算梯度，并不考虑其他智能体的动作与策略，计算期望回报相对于自身策略的梯度，每个episode通过以下公式更新：在这里插入图片描述
算法流程如下：

在多智能体环境设定中，on policy相比于off policy具有一定的优势，是因为on policy能够学习最新的经验得到策略，这样智能体会随着其他的智能体策略的改变而得到新的经验，能够不断适应变化的环境，因此在多智能体环境设定中，on policy算法能够持续更新，更加重要