“No-Pain No-Gain: DRL Assisted Optimization in Energy-Constrained CR-NOMA Networks”论文学习笔记

这篇paper于2021年发布在IEEE TRANSACTIONS ON COMMUNICATIONS 上,是有关于在CR-NOMA网络中,能量受限的次要用户如何根据主用户的CSI来优化自身的数据传输功率P和时间分配因子 α \alpha α(一帧内数据传输阶段所占用的时间,剩下时间为能量收集时间)以最大化长期吞吐量的问题。这篇论文不同于以往使用RL时,直接将优化变量P和 α \alpha α作为action的方法,而是抽取帧之间的能量波动 E ˉ n \bar{E}_n Eˉn作为action,然后根据RL的输出 E ˉ n \bar{E}_n Eˉn使用凸优化的方法来求解变量P和 α \alpha α,提高了系统性能和训练稳定度,降低了RL的复杂性。

相应的源代码分析可见“No-Pain No-Gain: DRL Assisted Optimization in Energy-Constrained CR-NOMA Networks”代码分析和验证

一、 系统模型和问题构建

考虑M个主用户(PU) U m , 1 ≤ m ≤ M U_m,1\leq m\leq M Um,1mM以固定的调度顺序在任务时间内重复多次向基站(BS)发送信息,而次级用户(SU) U 0 U_0 U0通过CR-NOMA技术被接入到主用户被分配的时间槽中同步做任务,具体而言,SU会在前 α n T \alpha _nT αnT秒内以功率 P 0 , n P_{0,n} P0,n向BS传输数据,在 ( 1 − α n ) T (1-\alpha_n )T (1αn)T秒内从PU处收集能量来为电池充电,其中 α n \alpha _n αn T T T分别代表时间分配因子和每帧持续时间,系统模型图如图1所示:

Image

图1 系统模型图

SU希望通过优化 α n \alpha _n αn P 0 , n P_{0,n} P0,n来最大化长期的吞吐量,相应的优化问题如下所示:

Image

其中, E n E_n En代表在第 n n n个时间槽初始时SU的剩余电池能量, R n R_n Rn代表第 n n n个时间槽中SU的吞吐量,具体表达式如下式所示:

Image

对该系统而言,由于每一帧之间PU的调度导致系统的CSI一直在变化,所以即使CSI只考虑大尺度衰落,该问题也是时变的。注意到目标函数为吞吐量的折扣累积量的期望值,是非凸的,再加以等式约束(P1b)不是仿射的,所以应用传统的凸优化方法是难以求解该优化问题的。

二、强化学习结合凸优化求解优化问题

优化问题(P1)是强化学习方法非常适合解决的一类问题,论文中采用了DDPG的方法来求解。

1. DDPG概述

DDPG适宜于求解具有连续动作空间的问题。DDPG有4个神经网络架构,分别为actor network(参数 ω μ \omega_{\mu} ωμ)、critic network (参数 ω c \omega_{c} ωc)、target actor network(参数 ω μ t \omega_{\mu_t} ωμt)、target critic network (参数 ω c t \omega_{c_t} ωct)。

  • target actor network和target critic network依据actor network和critic network的网络参数进行软更新操作,如下式所示:

Image

  • actor网络的输出是action,action和state一起作为输入接入到critic network中,critic network的输出是Q函数,Q函数是累积回报的期望,希望越大越好,其可通过控制输入action以及更新critic network参数达到此目的。对于输入action而言,在critic network参数 ω c \omega_{c} ωc固定的情况下,可通过控制actor network参数 ω μ \omega_{\mu} ωμ来挑选使Q函数最大的action,其可表述为如下形式:

    Image

    可用梯度上升法来求解该优化问题。目标函数可重新表示为:

    Image

    因为动作空间连续,所以Q函数是可微的,其相应的梯度为:

    Image

  • critic network参数更新是依据两个target network完成的。target actor network根据next state s _ s\_ s_输出action值 μ t ( s _ ∣ ω μ t ) \mu_t(s\_ |\omega_{\mu_t}) μt(s_∣ωμt),再将其和 s _ s\_ s_输入到target critic network中,得到目标输出Q值

    Image

    而critic network有关于当前状态的估计值 Q ( s , a ∣ ω c ) Q(s,a|\omega_c) Q(s,aωc),所以critic network参数 ω c \omega_c ωc更新的原则就是最小化目标Q值和Q函数估计值之间的损失函数 L = ( y − Q ( s , a ∣ ω c ) ) 2 L=(y-Q(s,a|\omega_c))^2 L=(yQ(s,aωc))2

2.(P1)的解决方案

观察(P1)优化问题,可以发现优化变量 α n \alpha _n αn P 0 , n P_{0,n} P0,n在时间槽 n n n n + 1 n+1 n+1上是耦合的,并且 α n \alpha _n αn P 0 , n P_{0,n} P0,n的取值范围是有差异的,如果直接应用DDPG方法来求解会造成训练不稳定的问题。为此,本文引入辅助变量能量波动参数 E ˉ n \bar{E}_n Eˉn作为DDPG的action,这样不仅可以减小DDPG的动作维度,还可以解决因动作取值范围有差异而造成的训练不稳定的问题,然后将耦合的变量 α n \alpha _n αn P 0 , n P_{0,n} P0,n用凸优化工具来求解,以提高系统性能和效率。总的来说,本文将原优化问题(P1)分为两个子优化问题交替迭代求解,其中用DDPG方法求解每两帧之间的能量波动 E ˉ n \bar{E}_n Eˉn子优化问题,然后根据求解出来的 E ˉ n \bar{E}_n Eˉn用凸优化方法求解 α n \alpha _n αn P 0 , n P_{0,n} P0,n子优化问题。

(1)有关 E ˉ n \bar{E}_n Eˉn的子优化问题

E ˉ n \bar{E}_n Eˉn表示在 t n t_n tn时能量收集和能量消耗之间的差异,具体表示式如下所示:

Image

根据求解出的 α n \alpha _n αn P 0 , n P_{0,n} P0,n,有关 E ˉ n \bar{E}_n Eˉn的子优化问题如下所示:

Image

该问题是关于单连续变量 E ˉ n \bar{E}_n Eˉn的函数,其完美适应于DDPG的应用范围,下面给出具体的state,action,reward的定义:

  • state space:由四个变量组成, t n t_n tn时与PU有关的信道增益 ∣ h n ∣ 2 |h_n|^2 hn2 ∣ h n , 0 ∣ 2 |h_{n,0}|^2 hn,02,与SU有关的信道增益 ∣ g 0 , n ∣ 2 |g_{0,n}|^2 g0,n2,当前时刻初始时剩余的电池能量 E n E_n En,即 s n = [ ∣ g 0 , n ∣ 2   ∣ h n ∣ 2   ∣ h n , 0 ∣ 2   E n ] T s_n=[|g_{0,n}|^2 \ |h_n|^2 \ |h_{n,0}|^2 \ E_n]^T sn=[g0,n2 hn2 hn,02 En]T

  • action space:根据前述分析, E ˉ n \bar{E}_n Eˉn应该被定义为action。但是 E ˉ n \bar{E}_n Eˉn的取值范围较大,可能会取到一个很大的负值和正值,如下式所示:

    Image

    如果将 E ˉ n \bar{E}_n Eˉn直接作为action,较大的输出范围可能会导致梯度消失或爆炸现象,使得权重更新不稳定,并且较大的输出范围也可能会导致网络收敛缓慢甚至无法收敛的问题。所以希望action的范围能被限制在一个小的固定的区间内,理想为[0,1],故可引入新的action β n , 0 ≤ β n ≤ 1 \beta_n,0\le\beta_n\le1 βn,0βn1来重新定义 E ˉ n \bar{E}_n Eˉn如下所示:

    Image

    其中, β n = 0 \beta_n=0 βn=0 E ˉ n \bar{E}_n Eˉn取到下界,SU在 t n t_n tn时刻全在发射数据; β n = 1 \beta_n=1 βn=1 E ˉ n \bar{E}_n Eˉn取到上界,SU在 t n t_n tn时刻全在收集能量。因此 β n \beta_n βn是一个合适的DDPG的action变量。

  • reward:在 t n t_n tn时SU的吞吐量 R n R_n Rn作为reward。

(2)有关 α n \alpha _n αn P 0 , n P_{0,n} P0,n的子优化问题

根据给定的 E ˉ n \bar{E}_n Eˉn,有关 α n \alpha _n αn P 0 , n P_{0,n} P0,n的子优化问题如下式所示:

Image

优化问题(P3)是非凸的,可以用交替优化的方法分别求解 α n \alpha _n αn P 0 , n P_{0,n} P0,n,求解 P 0 , n P_{0,n} P0,n对应的优化问题为:

Image

因为有等式约束(P7b),所以最优的 P 0 , n P_{0,n} P0,n即为:

Image

求解 α n \alpha _n αn对应的优化问题为:

Image

文中证明了目标函数(P8a)是 α n ≥ 0 \alpha _n\ge0 αn0的凹函数,所以优化问题(P8)是一个凹问题,可以用凸优化工具进行求解。但文中更进一步,求出了 α n \alpha _n αn的闭式解的形式如下所示:

Image

至此, α n \alpha _n αn P 0 , n P_{0,n} P0,n的闭式解已被求出,然后应用于DDPG方法中用以求出reward R n R_n Rn,以最终影响action E ˉ n \bar{E}_n Eˉn

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值