【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度

该文探讨了使用多智能体强化学习(MARL)方法,特别是Actor-Attention-Critic模型,进行微电网间的分布式能源交易与调度。每个智能体拥有独立的actor和critic网络,利用注意力机制在复杂交互中聚焦重要信息,优化决策。实验比较了不同策略,如单智能体的非合作与合作方法,展示了注意力机制和多智能体协作在降低成本、提高收益和系统性能上的优势。
摘要由CSDN通过智能技术生成
【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度

Distributed Energy Trading and Scheduling Among Microgrids via Multiagent Reinforcement Learning


  • 带有注意力机制的多智能体强化学习(MARL)方法——S. Iqbal and F. Sha, “Actor-attention-critic for multi-agent reinforcement learning,” in Proc. Int. Conf. Mach. Learn., 2019, pp. 2961–2970.
  • 搭建模拟环境
  • 每个agent有单独的actor和critic网络,并不是参数共享

网络与算法
  • 具体问题涉及到混合竞争-合作连续值控制

  • 网络
    • 基础网络
      • 每个agent有自己的actor和critic网络

      在这里插入图片描述

      在这里插入图片描述

      actor网络的激活函数为Tanh函数,每个输出的范围为−1到1,然后将其转换为每个控制动作的实际范围。计算公式如下,x为Tanh输出的动作 ,控制动作的实际范围为在这里插入图片描述

      在这里插入图片描述

      critic网络:所有智能体的状态将被输入到一个全连接(FC)层。FC层的输出向量将集中所有参与者的控制动作,然后输入第二FC层。评论家网络的激活函数是一个线性函数,输出是一个实值。

    • 带注意力机制的网络

      在这里插入图片描述

      • 状态动作嵌入(embedding)

        • 每个agent有独立的嵌入函数,其参数在学习时可训练,将agent i的嵌入函数记为 Ψ i \Psi_{i} Ψi,则嵌入函数表示为 x i = Ψ i ( s i , a i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值