强化学习论文分析3---蜂窝网络联合频谱和功率分配的深度强化学习--《Deep Reinforcement Learning for ......》


本文是对论文《Deep Reinforcement Learning for Joint Spectrum and Power Allocation in Cellular Networks》的分析,若需下载原文请依据前方标题搜索,第一作者为Yasar Sinan Nasir。

一、研究内容概述

本文作者联合使用DQN和DDPG强化学习方法,用于下行功率控制中的频带选择与能量分配。结果表明,该方法具有很好的收敛速度和泛化性能。

二、系统目标与约束

1.系统描述

在这里插入图片描述
如上图所示,整个功率分配系统有两部分组成,我们将其描述为顶层与底层。顶层是一个DQN网络,用于子带的选择。底层是一个DDPG网络,以顶层选择的子带作为输出,输出对应的功率分配值。

2.系统目标

在这里插入图片描述
系统的目标为最大化信道容量,信道容量由下式定义
在这里插入图片描述
其中在这里插入图片描述是频带所对应的SINR值,公式如下
在这里插入图片描述
公式中,在这里插入图片描述表示在t时刻发射机n的子带选择m(取值为0或1)。在这里插入图片描述表示在t时刻发射机n的发射功率。在这里插入图片描述表示高斯噪声功率值。在这里插入图片描述表示t时刻,在子带m上,发射机n到接收机l的信道增益。其具体展开如下
在这里插入图片描述
其中在这里插入图片描述为大尺度衰落,包含路径损耗和阴影衰落。在这里插入图片描述为小尺度瑞利衰落。本文假设大尺度衰落在所有时隙中保持不变。小尺度衰落继续展开为

在这里插入图片描述
其中在这里插入图片描述在这里插入图片描述是依赖于最大多普勒频率fd的第一类零阶贝塞尔函数。在这里插入图片描述是具有单位方差的独立同分布的圆对称复高斯随机变量。

三、DQN、DDPG网络设计

四、性能表征

在这里插入图片描述
本文所提出的基于DQN与DDPG联合子带选择与功率分配模型,相较于传统的FP算法,具有更高的信道容量和值。随着系统链路规模的增大,本文所提出的算法仍能保持很好的收敛性和收敛速度。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@白圭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值