“No-Pain No-Gain: DRL Assisted Optimization in Energy-Constrained CR-NOMA Networks”论文学习笔记

m0_56225161

已于 2024-04-10 16:55:29 修改

阅读量716

点赞数 21

分类专栏：强化学习文章标签：论文笔记经验分享深度学习

于 2024-04-01 10:11:30 首次发布

本文链接：https://blog.csdn.net/m0_56225161/article/details/137221294

版权

强化学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

这篇paper于2021年发布在IEEE TRANSACTIONS ON COMMUNICATIONS 上，是有关于在CR-NOMA网络中，能量受限的次要用户如何根据主用户的CSI来优化自身的数据传输功率P和时间分配因子 $\alpha$ （一帧内数据传输阶段所占用的时间，剩下时间为能量收集时间）以最大化长期吞吐量的问题。这篇论文不同于以往使用RL时，直接将优化变量P和 $\alpha$ 作为action的方法，而是抽取帧之间的能量波动 $\bar{E}_n$ 作为action，然后根据RL的输出 $\bar{E}_n$ 使用凸优化的方法来求解变量P和 $\alpha$ ，提高了系统性能和训练稳定度，降低了RL的复杂性。

相应的源代码分析可见“No-Pain No-Gain: DRL Assisted Optimization in Energy-Constrained CR-NOMA Networks”代码分析和验证

一、系统模型和问题构建

考虑M个主用户（PU） $U_m,1\leq m\leq M$ 以固定的调度顺序在任务时间内重复多次向基站（BS）发送信息，而次级用户（SU） $U_0$ 通过CR-NOMA技术被接入到主用户被分配的时间槽中同步做任务，具体而言，SU会在前 $\alpha _nT$ 秒内以功率 $P_{0,n}$ 向BS传输数据，在 $(1-\alpha_n )T$ 秒内从PU处收集能量来为电池充电，其中 $\alpha _n$ 和 $T$ 分别代表时间分配因子和每帧持续时间，系统模型图如图1所示：

图1 系统模型图

SU希望通过优化 $\alpha _n$ 和 $P_{0,n}$ 来最大化长期的吞吐量，相应的优化问题如下所示：

其中， $E_n$ 代表在第 $n$ 个时间槽初始时SU的剩余电池能量， $R_n$ 代表第 $n$ 个时间槽中SU的吞吐量，具体表达式如下式所示：

对该系统而言，由于每一帧之间PU的调度导致系统的CSI一直在变化，所以即使CSI只考虑大尺度衰落，该问题也是时变的。注意到目标函数为吞吐量的折扣累积量的期望值，是非凸的，再加以等式约束（P1b）不是仿射的，所以应用传统的凸优化方法是难以求解该优化问题的。

二、强化学习结合凸优化求解优化问题

优化问题（P1）是强化学习方法非常适合解决的一类问题，论文中采用了DDPG的方法来求解。

1. DDPG概述

DDPG适宜于求解具有连续动作空间的问题。DDPG有4个神经网络架构，分别为actor network（参数 $\omega_{\mu}$ ）、critic network （参数 $\omega_{c}$ ）、target actor network（参数 $\omega_{\mu_t}$ ）、target critic network （参数 $\omega_{c_t}$ ）。

target actor network和target critic network依据actor network和critic network的网络参数进行软更新操作，如下式所示：

actor网络的输出是action，action和state一起作为输入接入到critic network中，critic network的输出是Q函数，Q函数是累积回报的期望，希望越大越好，其可通过控制输入action以及更新critic network参数达到此目的。对于输入action而言，在critic network参数 $\omega_{c}$ 固定的情况下，可通过控制actor network参数 $\omega_{\mu}$ 来挑选使Q函数最大的action，其可表述为如下形式：

可用梯度上升法来求解该优化问题。目标函数可重新表示为：

因为动作空间连续，所以Q函数是可微的，其相应的梯度为：
critic network参数更新是依据两个target network完成的。target actor network根据next state $_ s\_$ 输出action值 $\mu_t(s\_ |\omega_{\mu_t})$ ，再将其和 $_ s\_$ 输入到target critic network中，得到目标输出Q值

而critic network有关于当前状态的估计值 $Q(s,a|\omega_c)$ ，所以critic network参数 $\omega_c$ 更新的原则就是最小化目标Q值和Q函数估计值之间的损失函数 $L=(y-Q(s,a|\omega_c))^2$ 。

2.（P1）的解决方案

观察（P1）优化问题，可以发现优化变量 $\alpha _n$ 和 $P_{0,n}$ 在时间槽 $n$ 和 $n + 1$ 上是耦合的，并且 $\alpha _n$ 和 $P_{0,n}$ 的取值范围是有差异的，如果直接应用DDPG方法来求解会造成训练不稳定的问题。为此，本文引入辅助变量能量波动参数 $\bar{E}_n$ 作为DDPG的action，这样不仅可以减小DDPG的动作维度，还可以解决因动作取值范围有差异而造成的训练不稳定的问题，然后将耦合的变量 $\alpha _n$ 和 $P_{0,n}$ 用凸优化工具来求解，以提高系统性能和效率。总的来说，本文将原优化问题（P1）分为两个子优化问题交替迭代求解，其中用DDPG方法求解每两帧之间的能量波动 $\bar{E}_n$ 子优化问题，然后根据求解出来的 $\bar{E}_n$ 用凸优化方法求解 $\alpha _n$ 和 $P_{0,n}$ 子优化问题。

（1）有关 $\bar{E}_n$ 的子优化问题

$\bar{E}_n$ 表示在 $t_n$ 时能量收集和能量消耗之间的差异，具体表示式如下所示：

根据求解出的 $\alpha _n$ 和 $P_{0,n}$ ，有关 $\bar{E}_n$ 的子优化问题如下所示：

该问题是关于单连续变量 $\bar{E}_n$ 的函数，其完美适应于DDPG的应用范围，下面给出具体的state，action，reward的定义：

state space：由四个变量组成， $t_n$ 时与PU有关的信道增益 $h_n|^2$ ， $h_{n,0}|^2$ ，与SU有关的信道增益 $g_{0,n}|^2$ ，当前时刻初始时剩余的电池能量 $E_n$ ，即 $s_n=[|g_{0,n}|^2 \ |h_n|^2 \ |h_{n,0}|^2 \ E_n]^T$ 。
action space：根据前述分析， $\bar{E}_n$ 应该被定义为action。但是 $\bar{E}_n$ 的取值范围较大，可能会取到一个很大的负值和正值，如下式所示：

如果将 $\bar{E}_n$ 直接作为action，较大的输出范围可能会导致梯度消失或爆炸现象，使得权重更新不稳定，并且较大的输出范围也可能会导致网络收敛缓慢甚至无法收敛的问题。所以希望action的范围能被限制在一个小的固定的区间内，理想为[0,1]，故可引入新的action $\beta_n,0\le\beta_n\le1$ 来重新定义 $\bar{E}_n$ 如下所示：

其中， $\beta_n=0$ 时 $\bar{E}_n$ 取到下界，SU在 $t_n$ 时刻全在发射数据； $\beta_n=1$ 时 $\bar{E}_n$ 取到上界，SU在 $t_n$ 时刻全在收集能量。因此 $\beta_n$ 是一个合适的DDPG的action变量。
reward：在 $t_n$ 时SU的吞吐量 $R_n$ 作为reward。