强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》

@白圭

已于 2022-11-15 18:28:20 修改

阅读量1.2k

点赞数 1

分类专栏： RL论文分析文章标签： python 深度学习

于 2022-11-14 19:14:11 首次发布

本文链接：https://blog.csdn.net/taiyuezyh/article/details/127850719

版权

RL论文分析专栏收录该内容

6 篇文章

订阅专栏

该文介绍了如何在异构网络环境下，利用深度强化学习（DQN和Actor-Critic算法）进行多基站功率控制，以最大化信道容量。每个微基站采用DQN模型，宏基站则采用Actor-Critic策略。通过分布式学习和经验回放，模型逐步收敛并优化网络性能。相较于传统方法，该算法在收敛时间和信道容量上表现出优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、文章概述

本篇文章的主要内容是:在异构网络条件下，使用强化学习(包括DQN和AC)算法对各个基站的功率进行控制，最终达到信道容量最大化的目的。我个人觉得这篇文章的内容很饱满，可以认为是强化学习在功率控制领域(干扰管理)应用的集大成者。

二、系统目标

在这里插入图片描述
与常见功率控制系统目标相同，作者所提出的算法目的是使得信道容量总和最大化。

系统的SINR定义如上式所示。

三、应用场景

在这里插入图片描述
作者的算法应用于如图所示的异构网络场景下，包含一个宏基站和四个微基站。宏基站的坐标为(0,0),覆盖半径为[10,1000]。微基站的坐标分别为与宏基站的距离是500米，坐标分别为(500,0)、(-500,0)、(0,500)、(0,-500)，覆盖半径为[10,200]。宏基站的发送功率为30dB，微基站的发送功率为23dB，传输的路径损耗定义为120.9 +37.6 log 10(d)，距离d以千米为单位。

四、算法架构

1.微基站处----DQN

在这里插入图片描述
每一个微基站处的强化学习模型为DQN,以基站的七中可能状态作为输入，最终的发送功率值作为输出，其环境的奖励为计算后所得到的局部信道容量值，目的是尽可能的提升局部信道容量，达到全局信道容量最大化的目的。值得注意的是，微基站处只进行网络的前向传播，其参数由顶层AC网络下发。
在这里插入图片描述

在这里插入图片描述

具体而言，每一个局部网络共有五层。第一层是微基站的七种状态，对应七个神经元。第二、三两层是具有一百个神经元的全连接层。第四层只有一个神经元，对应的激活函数为sigmod，用于把神经网络的输出转换到0-1之间。第五层也只有一个神经元，是将0-1之间的输出线性放大到0-Pmax。

2.宏基站处—Actor-Critic

在这里插入图片描述
宏基站处建立与微基站结构相同的DQN网络，作为AC算法的actor部分。其更新方法要点包括DQN中的:(1)网络模型固定(2)经验回放。作为顶层网络，actor部分收集local处积累的经验(状态转换_功率变化对应关系)优化自身，目的是局部功率输出最大。并将计算所得的θ参数实时下发，在实际的local模型中应用并不断积累经验值。
宏基站处同时建立一个共享的评估网络，作为AC算法Critic部分。Critic统筹全局的网络模型，以所有网络动作-状态以及全局CSI等信息作为输入，系统的信道容量总和作为输出，对于局部DQN网络做出指导，在原有DQN输出基础上调节其更新的幅度，使得模型从各个局部最优趋向于全局最优。
在这里插入图片描述

在这里插入图片描述
具体而言，对于Critic网络，以全局S的状态和动作作为输入，经过全连接层传递后各生成200个神经元，作为动作-状态混合网络的第一层。混合网络的第二层有200个神经元，激活函数为relu。最后一层以全局信道容量和作为输出。

五、伪代码

在这里插入图片描述

六、算法流程图

在这里插入图片描述
从0时刻开始，微基站使用随机功率控制策略，向宏基站发送经验累积信息
从Td时刻开始，local经验第一次到达，actor网络对其进行存储。
从Td+D时刻开始，宏基站积累的经验达到训练的最小批次，开始进行网络的训练。
从Td+D+tu时刻开始，actor网络参数下发，并且每个Tu时间间隔进行更新。
从2Td+D+tu时刻开始，Critic网络开始积累actor网络的第一批次经验值，训练并且对actor网络做出指导。
至此，整个网络正常运行，系统不断学习与优化。