【应用、注意力机制MARL】基于多智能体强化学习的微电网分布式能源交易与调度
Distributed Energy Trading and Scheduling Among Microgrids via Multiagent Reinforcement Learning
- 带有注意力机制的多智能体强化学习(MARL)方法——S. Iqbal and F. Sha, “Actor-attention-critic for multi-agent reinforcement learning,” in Proc. Int. Conf. Mach. Learn., 2019, pp. 2961–2970.
- 搭建模拟环境
- 每个agent有单独的actor和critic网络,并不是参数共享
网络与算法
-
具体问题涉及到混合竞争-合作,连续值控制
-
网络
-
基础网络
- 每个agent有自己的actor和critic网络
actor网络的激活函数为Tanh函数,每个输出的范围为−1到1,然后将其转换为每个控制动作的实际范围。计算公式如下,x为Tanh输出的动作 ,控制动作的实际范围为
: critic网络:所有智能体的状态将被输入到一个全连接(FC)层。FC层的输出向量将集中所有参与者的控制动作,然后输入第二FC层。评论家网络的激活函数是一个线性函数,输出是一个实值。
-
带注意力机制的网络
-
状态动作嵌入(embedding)
-
每个agent有独立的嵌入函数,其参数在学习时可训练,将agent i的嵌入函数记为 Ψ i \Psi_{i} Ψi,则嵌入函数表示为 x i = Ψ i ( s i , a i
-
-
-