论文阅读|用于不同问题的MADDPG算法框架系列论文汇总

MADDPG论文阅读:

论文阅读|《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》(NeurlPS,2017)(MADDPG)

1 论文1

[1] Wang,,Shengyi,Duan,,Jiajun,Shi,,Di,Xu,,Chunlei,Li,,Haifeng,Diao,,Ruisheng,Wang,,& Zhiwei.(2020).A Data-Driven Multi-Agent Autonomous Voltage Control Framework Using Deep Reinforcement Learning.IEEE TRANSACTIONS ON POWER SYSTEMS,35(6),4644-4654.

这篇文章以经典的自主电压控制问题为例,将其描述为一i个马尔可夫博弈,并用启发式方法对智能体进行划分,采用具有集中训练、分散执行特点的MADDPG算法进行学习,通过输入输出数据逐步掌握系统的运行规则。

贡献:

(1)在所提出的MA-AVC方案中,基于DRL的Agent可以通过大量的离线训练来学习其控制策略,而不需要对复杂的物理系统进行建模,并使其行为适应新的变化,包括负载/发电变化和拓扑变化等。

(2)所提出的多智能体DRL系统解决了现有DRL方法中的维数诅咒问题,并可相应地扩展应用于大规模电力系统的控制。该控制方案还可以很容易地推广应用于除AVC以外的其他控制问题。

(3)提出的MA-AVC方案中的分散执行机制可以应用于大规模的复杂能源网络,每个Agent的计算复杂度较低。同时解决了集中控制方案的通信时延和单点故障问题。

(4)提出的MA-AVC方案采用基于操作规则的策略设计实现区域控制,并对原有的MADDPG算法进行了改进,结合独立重放缓冲区稳定学习过程,协调器对协作行为进行建模,并测试了算法对弱集中通信环境的鲁棒性。

论文框架:

 Markov Game的设计:

        这篇文章针对的是部分可观测的MGs.

(1)Agent的定义:

        为了将大规模电网改造成多Agent系统,提出了一种启发式的多控制Agent划分方法。首先,根据默认的地理位置信息将电网划分为多个区域。然后,为每个座席分配一定数量的互连区域(地理分区)。因为地理分区不能保证通过调节本地发电机母线电压大小来控制每个母线电压。接下来,记录不可控的稀疏总线,并将其重新分配给其他有效的代理(分区后调整),这是以试错的方式实现的。具体地说,在地理分区后,将建立离线评估程序,并在此过程中记录不可控的公交车。然后,记录中的不可控总线将被重新分配给具有电连接的其他代理。上述分区后调整过程将反复执行,直到所有公交车都由本地资源控制为止。

 (2)状态(State)、动作(Action)和观察(Observation)、奖励的定义:

        控制动作被定义为发电机母线电压幅值的矢量,其每个元件可以在0.95PU到1.05PU的范围内连续调整。状态被定义为仪表测量的矢量,用于表示系统运行状态,例如系统范围的母线电压幅度、相角、负荷、发电和潮流。

每个代理的观测被定义为母线电压幅值的局部测量。假设每个代理只能观察和管理其自己的区域。

训练过程:

 2 论文2:

[2]Wu,,Tong,Zhou,,Pan,Wang,,Binghui,Li,,Ang,Tang,,Xueming,Xu,,Zichuan,Chen,,Kai,Ding,,& Xiaofeng.(2021).Joint Traffic Control and Multi-Channel Reassignment for Core Backbone Network in SDN-IoT: A Multi-Agent Deep Reinforcement Learning Approach.IEEE TRANSACTIONS ON NETWORK SCIENCE AND ENGINEERING,8(1),231-245.

        这篇文章针对SDN-IoT核心骨干网提出了一种联合多信道重分配和流量控制框架。与经典的性能指标相比,我们设计了一个更全面的目标函数,通过在一条链路上调度适当的业务负载来最大化吞吐量,最小化丢包率和时延。提出了一种基于多智能体深度确定性策略梯度(MADDPG)的交通控制和多通道重分配(TCCAMADDPG)算法,通过优化目标函数来实现交通控制和信道重分配。针对核心骨干网的动态性和复杂性,我们将话务量预测结果作为信道状态信息的一部分。为了更好地利用信道状态的时间连续性,实验中我们在神经网络中加入了LSTM层来捕获信道的定时信息。

贡献:

(1)在集中式SDN控制器的基础上,提出了一种SDN-IoT核心骨干网的联合流量控制和多信道重分配方法,将各信道的预测业务负荷作为一条链路上的状态信息进行处理,以便更好地决策。

(2)针对SDN-IoT中的联合业务控制和多信道重分配问题,建立了多智能体DRL模型。为了实现最优的多信道重分配,我们将每条链路的丢包率、时延、分组吞吐量、信道容量、信道传输速率和信道利用率考虑到状态空间和奖励函数中。每个智能体都可以根据自身的局部状态选择决策,这得益于神经网络强大的表示能力,实现了分布式执行。

(3)提出了一种基于MADDPG的交通控制和多信道重分配(TCCA-MADDPG)算法。为了捕获链路间的信道干扰,我们考虑了多个Agent之间的协作,同时考虑了其他相邻Agent的策略,从而缓解了多Agent场景中由于环境不稳定而导致学习效果不佳的问题。在仿真结果中,与自然深度Q学习网络(DQN)[13]和异步优势参与者-批评者(A3C)[14]相比,我们提出的算法在时延、包吞吐量和丢包率方面都有明显的改善.

论文框架:

论文的算法框架:

其中Actor_Critic的网络架构: 

 

3 论文3

[3]  Peng,,Haixia,Shen,,& Xuemin.(2021).Multi-Agent Reinforcement Learning Based Resource Management in MEC- and UAV-Assisted Vehicular Networks.IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS,39(1),131-141.

        这篇文章研究了无人机辅助车载网络的多维资源管理问题。为了有效地提供按需资源访问,安装了多路访问边缘计算(MEC)服务器的宏eNodeB和无人机协作地做出关联决策并向车辆分配适量的资源。由于没有中央控制器,我们将MEC服务器上的资源分配问题描述为一个分布式优化问题,目的是在满足异构服务质量(QoS)要求的同时最大化卸载任务的数量,然后采用基于多智能体深度确定性策略梯度(MADDPG)的方法求解该问题。通过离线集中训练MADDPG模型,MEC服务器作为学习代理,在在线执行阶段快速做出车辆关联和资源分配决策。从仿真结果看,基于MADDPG的方法可以在200个训练集内收敛,与基于单智能体DDPG(SADDPG)的方法相当。此外,所提出的基于MADDPG的资源管理方案比基于SADDPG的资源管理方案和基于随机的资源管理方案具有更高的延迟/QoS满意度。

贡献:

(1)为了在满足QoS要求的同时支持尽可能多的卸载任务,我们为每个MEC服务器制定了一个单独的优化问题,以共同管理安装在MEC上的MenB和UAV的频谱、计算和缓存资源;

(2)由于车辆关联模式变量的存在,形成的问题是相互耦合的非凸性问题。为了快速解决这些问题以满足卸载任务的敏感延迟要求,我们根据RL的主要思想对每个公式化问题进行了变换;

(3)通过让每个MEC服务器充当一个Agent,将转换后的问题转化为多Agent问题,并提出了一种多Agent DDPG(MADDPG)算法来求解该问题。通过离线训练MADDPG模型,每个MEC服务器可以实时做出车辆关联和资源分配决策。

论文框架:

        与论文2相同

 算法架构:

4 论文4

[4]Sun,,Xianzhuo,Qiu,,& Jing.(2021).Two-Stage Volt/Var Control in Active Distribution Networks With Multi-Agent Deep Reinforcement Learning Method.IEEE TRANSACTIONS ON SMART GRID,12(4),2903-2912.

        间歇性可再生能源在有源配电网(ADN)中的高渗透率给传统的电压无功控制(VVC)带来了巨大的挑战。提出了一种基于两阶段深度强化学习(DRL)的实时电压无功补偿(VVC)方法,在降低网损的同时抑制快速电压违规。第一阶段采用最优潮流法对有载分接开关(OLTC)和电容器组(CBS)进行小时调度。将优化问题描述为混合整数二阶锥规划(MISOCP),可有效求解。在第二阶段,基于成熟的控制策略和现场测量,对光伏无功进行动态调节,以抑制电压的快速波动。采用多智能体深度确定性策略梯度(MADDPG)方法对实时VVC问题进行建模和求解,该方法具有离线集中训练和在线分散应用的特点。动作值函数对动作的梯度基于电压敏感度方法进行解析推导,而不是使用批评者网络来评估作用器网络的输出。该方法在IEEE33节点配电网上进行了测试,对比仿真结果表明,该方法在抑制电压违章方面具有增强的控制效果。

贡献:

(1)我们提出了一种数据驱动的两阶段控制框架,通过协调不同的电压调节设备来缓解快速电压违规。OLTC和CBS的最优调度结果在提前一天的调度中确定,并作为设计基于DRL的本地控制器的输入。实时VVC可以在不需要通信的情况下实现网络功耗最小化。

(2)针对光伏逆变器的局部控制问题,提出了一种多智能体深度强化学习(MA-DRL)方法。在离线集中学习过程中,目标包括电压限制和光伏无功能力约束,并将其建模为惩罚项,以确保配电网的安全运行。

(3)提出了一种基于电压敏感度的深度确定性策略梯度(DDPG)方法来解决MA-DRL问题。不使用批评性神经网络,而是解析地导出动作-值函数对动作的梯度,以更新神经网络中的参数。

论文框架:

        略

问题框架:

 算法框架:

 

  • 7
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Mappo算法(Multi-Agent Proximal Policy Optimization)和MADDPG算法(Multi-Agent Deep Deterministic Policy Gradient)都是用于多智能体强化学习算法,但在一些方面有所不同。 Mappo算法是基于Proximal Policy Optimization(PPO)算法的扩展,专门用于解决多智能体协同决策问题。它通过在训练过程中引入自适应的共享价值函数和策略函数来提高训练效果。Mappo算法使用了一个中心化的价值函数来估计所有智能体的价值,并且每个智能体都有自己的策略函数。这种方法可以帮助智能体更好地协同合作,避免冲突和竞争。 MADDPG算法是基于Deep Deterministic Policy Gradient(DDPG算法的扩展,也是一种用于多智能体协同决策的算法。MADDPG算法通过每个智能体都有自己的Actor和Critic网络来实现,每个智能体根据自己的观测和动作来更新自己的策略和价值函数。MADDPG算法使用了经验回放和目标网络来提高训练的稳定性和效果。 总结一下两者的区别: 1. Mappo算法使用了一个中心化的价值函数来估计所有智能体的价值,而MADDPG算法每个智能体都有自己的Critic网络来估计自己的价值。 2. Mappo算法在训练过程中引入了自适应的共享价值函数和策略函数,而MADDPG算法每个智能体都有自己的Actor和Critic网络。 3. Mappo算法更加注重智能体之间的协同合作,避免冲突和竞争,而MADDPG算法更加注重每个智能体的个体决策和学习。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码丽莲梦露

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值