强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》


本文是对论文《Deep Reinforcement Learning for Multi-Agent Power Control in Heterogeneous Networks》的分析,第一作者为北京邮电大学Lin Zhang
在这里插入图片描述

一、文章概述

本篇文章的主要内容是:在异构网络条件下使用强化学习(包括DQN和AC)算法对各个基站的功率进行控制,最终达到信道容量最大化的目的。我个人觉得这篇文章的内容很饱满,可以认为是强化学习在功率控制领域(干扰管理)应用的集大成者。

二、系统目标

在这里插入图片描述
与常见功率控制系统目标相同,作者所提出的算法目的是使得信道容量总和最大化。
在这里插入图片描述
系统的SINR定义如上式所示。

三、应用场景

在这里插入图片描述
作者的算法应用于如图所示的异构网络场景下,包含一个宏基站和四个微基站。宏基站的坐标为(0,0),覆盖半径为[10,1000]。微基站的坐标分别为与宏基站的距离是500米,坐标分别为(500,0)、(-500,0)、(0,500)、(0,-500),覆盖半径为[10,200]。宏基站的发送功率为30dB,微基站的发送功率为23dB,传输的路径损耗定义为120.9 +37.6 log 10(d),距离d以千米为单位。

四、算法架构

1.微基站处----DQN

在这里插入图片描述
每一个微基站处的强化学习模型为DQN,以基站的七中可能状态作为输入,最终的发送功率值作为输出,其环境的奖励为计算后所得到的局部信道容量值,目的是尽可能的提升局部信道容量,达到全局信道容量最大化的目的。值得注意的是,微基站处只进行网络的前向传播,其参数由顶层AC网络下发。
在这里插入图片描述

在这里插入图片描述

具体而言,每一个局部网络共有五层。第一层是微基站的七种状态,对应七个神经元。第二、三两层是具有一百个神经元的全连接层。第四层只有一个神经元,对应的激活函数为sigmod,用于把神经网络的输出转换到0-1之间。第五层也只有一个神经元,是将0-1之间的输出线性放大到0-Pmax。

2.宏基站处—Actor-Critic

在这里插入图片描述
宏基站处建立与微基站结构相同的DQN网络,作为AC算法的actor部分。其更新方法要点包括DQN中的:(1)网络模型固定(2)经验回放。作为顶层网络,actor部分收集local处积累的经验(状态转换_功率变化对应关系)优化自身,目的是局部功率输出最大。并将计算所得的θ参数实时下发,在实际的local模型中应用并不断积累经验值。
宏基站处同时建立一个共享的评估网络,作为AC算法Critic部分。Critic统筹全局的网络模型,以所有网络动作-状态以及全局CSI等信息作为输入,系统的信道容量总和作为输出,对于局部DQN网络做出指导,在原有DQN输出基础上调节其更新的幅度,使得模型从各个局部最优趋向于全局最优。
在这里插入图片描述

在这里插入图片描述
具体而言,对于Critic网络,以全局S的状态和动作作为输入,经过全连接层传递后各生成200个神经元,作为动作-状态混合网络的第一层。混合网络的第二层有200个神经元,激活函数为relu。最后一层以全局信道容量和作为输出。

五、伪代码

在这里插入图片描述

六、算法流程图

在这里插入图片描述
0时刻开始,微基站使用随机功率控制策略,向宏基站发送经验累积信息
Td时刻开始,local经验第一次到达,actor网络对其进行存储。
Td+D时刻开始,宏基站积累的经验达到训练的最小批次,开始进行网络的训练。
Td+D+tu时刻开始,actor网络参数下发,并且每个Tu时间间隔进行更新。
2Td+D+tu时刻开始,Critic网络开始积累actor网络的第一批次经验值,训练并且对actor网络做出指导。
至此,整个网络正常运行,系统不断学习与优化。

七、性能表征

1.收敛时间

在这里插入图片描述
无论是底层DQN的前向传播,抑或是顶层AC算法的训练,其用时均大幅度优于WMMSE和FP算法。

2.信道总容量

在这里插入图片描述
其性能如上图所示,在前200个时隙,微基站以随机功率策略发送信号。在200-1500时隙中,模型对累积经验进行学习,信道容量大幅提升并超越WMMSE和FP算法那。在约1500个时隙之后,模型收敛。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
"Python 强化学习项目 - 2018.pdf" 是一个介绍强化学习项目的文档,使用 Python 编程语言作为实现工具。强化学习是机器学习的一个分支,主要是研究如何让智能体在与环境的交互通过试错学习来获得最大的累积奖励。 该文档提供了一些基于 Python强化学习项目案例,目的是帮助读者理解和实践强化学习的概念和应用。这些项目案例可能包括以下内容: 1. 强化学习算法实现:该文档可能介绍了一些常用的强化学习算法,如Q学习、深度 Q 网络(DQN)、策略梯度等,并提供了相应的Python代码实现。通过这些项目案例,读者可以学习到如何使用Python编程语言来实现这些算法。 2. 游戏或机器人控制案例:强化学习经常应用于游戏和机器人控制。该文档可能提供了一些使用强化学习算法来玩游戏或控制机器人的项目案例。通过这些案例,读者可以学习到如何通过强化学习的方法来训练一个智能体,在特定环境掌握游戏规则或实现特定任务。 3. 实际应用案例:除了游戏和机器人控制强化学习也被应用于其他领域,如金融、交通等。该文档可能提供了一些强化学习在实际应用的项目案例,读者可以学习到如何将强化学习算法应用于解决实际问题。 总之,"Python 强化学习项目 - 2018.pdf" 是一个介绍强化学习项目的文档,通过提供具体的项目案例,帮助读者学习和实践强化学习算法在Python的应用。这些项目案例可能涵盖了强化学习算法实现、游戏或机器人控制案例以及实际应用案例。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@白圭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值