Distributed Multi-Agent Meta Learning for Trajectory Design in Wireless Drone Networks

本文链接：https://blog.csdn.net/qq_45022770/article/details/131675581

1 INTRODUCTION

问题：

如何有效部署一组无人机基站 drone base stations(DBSs) ——设计轨迹，从而在动态无线环境中为地面用户 ground users 提供及时的按需无线连接 wireless connectivity
如何根据有限的地面用户无线请求信息——往往高度不可预测和动态的，从而为一组独立的DBSs设计轨迹

1.1 Related Works

基于优化：没有考虑实际的DBSs辅助无线网络——用户对无线连接请求遵循不可预测的模式
基于强化学习RL/多智能体强化学习 multi-agent reinforcement learning (MARL)：
- 高复杂性：通过更新策略来解决多智能体问题，该策略基于整个智能体的行动和策略集，其维度随智能体数量呈指数级增长
- DBs无法优化整个系统的总效用 ，因此无法最大限度地扩大地面用户的总体覆盖范围：DBs正在优化其各自的效用 individual utilities
- 无法有效地将DBS的轨迹调整到未知环境中：算法的超参数、探索策略和初始化是手动调整的，以适应当前的训练任务

1.2 Contributions

在不可预测的动态环境中设计一组协作DBSs的轨迹:

考虑了一种实用的无人机辅助无线系统，在该系统中，一组DBSs在严格的能量约束和有限的周围环境信息下，在一个区域内协同导航，目的是为地面用户提供上行链路无线连接——将这个路径设计问题公式化为一个优化框架 optimization framework，其结构被证明是非凸 non-convex的
提出了一个新的分布式值分解强化学习（VD-RL）算法 novel, distributed, value decomposition reinforcement learning (VD-RL) algorithm
- 不需要共享无人机的行动 action、状态 state或策略 strategies，就能达到所研究问题的非凸问题的局部最优解
- 不复杂，相较于传统分布式 MARL 算法——DBSs可以根据他们自己的低维行动和状态来更新策略
- 允许DBSs独立选择策略，通过将团队效用分解并归因于每个DBS来最大化团队效用
提出了一种元训练机制 meta training mechanism，该机制使用基于优化的解决方案来元训练VD-RL算法 ——估计VD-RL算法的所有可能的用户请求模式，从而找到适当的策略和价值函数 value funcation 初始化
- 应对未知任务时，可以加快收敛速度
- 更低的复杂度——不需要额外的神经网络
- DBSs可以通过自己的行动和状态进行独立的元训练
- 可以应对各种任务

2 SYSTEM MODEL AND PROBLEM FORMULATION

假定：

用户被分成不同的组，每个组被称为一个集群 cluster——“集群”是指只属于一个DBS服务范围内的区域
在任何给定的时间，每个集群都将由一个DBS提供服务
所有的DBS具有相同的电池容量

DBSs 以稳定的水平直线飞行 steady straight-and-level flight (SLF) 穿越集群clusters
DBSs 以稳定的环形飞行 steady circular flight (SCF)
恒速 $V_s$
每个DBS以自身恒定的高度 $H_n$ 飞行，避免与其他DBSs碰撞
所有的DBS必须在用于电池冲断的时间段T内返回到它们的原始未知O

在这里插入图片描述

2.1 Communication Performance Analysis

用户采用正交频分多址（orthogonal frequency division multiple access，OFDMA）技术，并在一组上行链路资源块（resource blocks，RB）上发送数据
每个调度的DBS任意地将一个RB分配给集群内每一个关联用户

假定：

service area: 每个DBS可以在每个集群的 $d_r$ 米半径内持续为相关用户提供服务
用户 $u$ 在一个时间段 time epoch $t_u$ 内请求总共 $b_u$ 比特位的数据， $b_u$ 和 $t_u$ 是遵循未知分布的独立随机变量
部署的DBS是短视myopic的，即它们只知道它们当前服务的用户的访问量和活动时间
由于实际系统中的DBS数量较少，那么假设每个DBS将使用自己的专用频带 dedicated frequency band 来避免对地面链路的LoS的干扰

$b = [b_1,b_2,...,b_U]$ ：网络中用户的访问请求的数量的向量
$t = [t_1,t_2,...,t_U]$ ：网络中发生用户访问请求的时间段的向量
$z = [b, t]$ : 持续时间T内，用户的访问请求

${DBS} _n$ 和用户 $u$ 之间的视距（line-of-sight,LoS）和非视距（none-line-of-sight,NLoS）的air-to-ground 通信链路的路径损耗 pass losss（dB）由流行的air-to-ground model 给出
- $f_c$ ：载波频率 carrier frequency
- $d_{u,n}$ ：用户 $u$ 和 ${DBS} _n$ 之间的距离
- $c$ ：光速
- $\varsigma^{LoS}_{u,n}$ ： ${DBS} _n$ 和用户 $u$ 之间在LoS air-to-ground链路上的额外路劲损耗，遵循高斯分布—— $(\mu_{LoS},\delta^2_{LoS})$
- $\varsigma^{NLoS}_{u,n}$ ： ${DBS} _n$ 和用户 $u$ 之间在NLoS air-to-ground链路上的额外路劲损耗,遵循高斯分布—— $(\mu_{NLoS},\delta^2_{NLoS})$

注： ${DBS} _n$ 和用户 $u$ 之间的路径损耗值被认为随着 ${DBS} _n$ 的移动是稳定的，因为当 ${DBS} _n$ 在服务区域内飞行时， ${DBS} _n$ 和用户 $u$ 之间的距离只会发生很小的变化

${DBS} _n$ 和用户 $u$ 之间的LoS和NLoS链路的信噪比为：
- $P$ : 用户 $u$ 的发射功率transmit power——假设所有用户的发射功率相等
- $N_0$ :噪声功率谱密度 noise power spectral density
- $B$ :链路资源块RB带宽 bandwidth（对于所有RBs相等）
${DBS} _n$ 和用户 $u$ 之间链路的数据速率data rate：
- $\beta^{LoS}_{u,n}=[1+\varphi exp(-\phi {180 \over \pi}\theta_{n,u}+\varphi\phi)]^{-1}$ : ${DBS} _n$ 和用户 $u$ 之间存在LoS链路的可能性
- $1-\beta^{LoS}$ : ${DBS} _n$ 和用户 $u$ 之间存在NLoS链路的可能性
- $\varphi,\phi$ 是常数，取决于被研究的通信环境
- $\theta_{n,u}$ ： ${DBS} _n$ 和用户 $u$ 之间的仰角 elevation angle、

2.2 Utility Function Model

被调度的DBSs的目标:覆盖地面用户的所有访问请求 access request
每个DBS的效用函数：成功服务率successful service rate—— 捕获了给定DBS在给定时间段内为用户提供服务的比例
当 ${DBS} _n$ 到达一个集群时，它将仅服务于未被服务的用户请求 —— 若多个DBS同时到达一个集群，若其中一个DBS将服务整个集群，那么其他DBS将会直接向其他集群前进
一旦某个DBS发现（在其有限的态势感知下）另一个DBS正在集群的服务区域上悬停，它就知道该集群正在被服务，并且它将离开该集群

$DBS_n$ 服务某个集群 $\xi_{n,k}$ 的successful service rate 的表达式：
在这里插入图片描述

$\xi = [\xi_1,\xi_2,...,\xi_N]$ ：DBSs的轨迹矩阵
$\mathcal{U}_{n,k}$ : $\xi_{n,k}$ 中的活跃用户集合 active user
$\tau_{n,k}$ ：在成功服务集群 $\xi_{n,k}$ 后，允许 $DBS_n$ 以其剩余能量水平保持飞行的持续时间—— available service time , $DBS_n$ 在步骤k
$\Bbb{1}_{\{x\}}$ = 1 : $x$ 为true,否则式子为0
$\sum_{u \in \mathcal{U}}\Bbb{1}_{\{0 \leq t_u \leq T \}}$ : 在所研究的持续时间内的活跃用户的数量
$\sum_{u \in \mathcal{U}}\Bbb{1}_{\{u\in \mathcal{U}_{n,k},T-\tau_n^*\leq t_u \leq T-\tau_{n,k} \}}$ :在集群 $\xi_{n,k}$ 中被 $DBS_n$ 服务的活跃用户的数量
$\tau_n^* = min_{n^{'}\in \mathcal{N}_n}\tau_{n^{'},k^{'}}$ :在 $DBS_n$ 之前到达集群 $\xi_{n,k}$ 的最后一个DBS的可能service time
$T-\tau_n^*\leq t_u \leq T-\tau_{n,k}$ :用户 $u$ 在 $DBS_n$ 到达前请求访问的时间点，这个时间没有任何其他DBS提供服务
$\ n , ξ n ′ , k ′ = ξ n , k , τ n ′ , k ′ ≥ τ n , k ′ } \mathcal{N}_n = \{n^{'}|n^{'} \in \mathcal{N} \backslash n,\xi_{n^{'},k^{'}}=\xi_{n,k},\tau_{n^{'},k^{'}} \geq \tau_{n,k^{'}}\}$ : 在 $DBS_n$ 到达集群 $\xi_{n,k}$ 的DBS集合， $\xi_{n^{'},k^{'}}=\xi_{n,k}$ 意味着 $\xi_{n,k}$ 是被 $DBS_{n^{'}}$ 服务的第 $k^{'}$ 个集群
$\tau_{n,k} = T-\sum_{\kappa=0}^{k-1}{d_{n,\kappa,\kappa+1}\over V }-\sum_{\kappa=1}^{k-1}{D_{n,\kappa}^*}$
- $d_{n,\kappa,\kappa+1}$ 是集群 $\xi_{n,\kappa}$ 与集群 $\xi_{n,\kappa+1}$ 之间的距离
- $d_{n,\kappa,\kappa+1}\over V$ ： $DBS_n$ 在SLF中从集群 $\xi_{n,\kappa}$ 到 $\xi_{n,\kappa+1}$ 的时间
- $D_{n,\kappa}^*$ : $DBS_n$ 为集群 $\xi_{n,\kappa}$ 服务时悬停所需的时间 hovering time
- $D_{u,n} = {b_u \over c_{u,n}}$ : $DBS_n$ 服务用户 $u$ 的传输i时延 transmission delay， $max_{u \in \mathcal{n,\kappa}} D_{u,n}$ 是 $DBS_n$ 为集群中的所有用户服务的时间
- $2d_r \over V$ ： $DBS_n$ 在其服务区内的SLF飞行时间
- $\mathcal{U}_{n,k}^* = {u|u \in \mathcal{U}_{n,k},T-\tau_n^*\leq t_u \leq T-\tau_{n,\kappa}}$ ：在集群 $\xi_{n,k}$ 中被 $DBS_n$ 服务的用户集合

2.3 Problem Formulation

team utility： DBSs实现的成功服务率
在这里插入图片描述
目标： 找到最大化预期team utility的最佳轨迹

$\pi_n(\xi|\xi_{n,k},\tau_{n,k})$ : $DBS_n$ 在可能的服务时间 $\tau_{n,k}$ 内成功服务过集群 $\xi_{n,k}$ 后,前往某个 $\xi$ 的概率—— $DBS_n$ 的策略
$\pi=[\pi_n(\xi|\xi_{n,k},\tau_{n,k})]_{n \in \mathcal{N},,k \in \mathcal{K}}$ : 所有的DBSs的策略组成的向量

team utility 定义转变为：
在这里插入图片描述
其中， $\varepsilon$ 是DBSs的所有可能轨迹的集合

轨迹设计问题可以公式化为:
在这里插入图片描述

(7a）: DBSs必须从 $\varepsilon$ 集合中选择轨迹
(7b）：表示在考虑的持续时间内，每个 $DBS_n$ 必须选择为集合 $C$ 中的一个集群服务或返回原点
（7）的最优解保证了DBSs的最大预期团队效用，它被称为团队最优策略 team optimal strategy

问题与挑战：

(7）的问题是非凸的 non-convex
成功服务率 $\mu_{n,k}(\xi)$ 是不可预测的—— 所有用户请求服务的数量的集合 $b$ 和所有用户请求服务的时间的集合 $t$ 遵循未知分布
传统的机器学习算法如Q learning、policy gradient、echo statenetworks(ESN)需要手动调整以应对训练任务，且无法应用于未知环境

论文想法： a distributed meta-trained VD-RL algorithm

3 PROPOSED VALUE DECOMPOSITION-REINFORCEMENT LEARNING ALGORITHM WITH META TRAINING

distributed meta-trained VD-RL algorithm ：融合了 value decomposition network、model agnostic meta-learning、policy gradient (PG) framework

为多个DBS找到最优轨迹，算法应能够达到团队最优策略 team optimal strategy——PG无法为一组DBSs找到团队最优策略，因为它会将所有DBSs引导到一个轨迹
为适应未知环境，算法不能过拟合于训练任务

3.1 Value Decomposition Based Reinforcement Learning Algorithm

3.1.1算法组成：

Agents ：集合 $N$ 中的DBSs
States:
- 一个代理的状态：由位置——当前服务的集群和能级——返回原点的时间组成， $s_{n,k} = [\xi_{n,k},\tau_{n,k}]$
- 所有代理的状态： $S=\{S_0,S_1,...,S_k\}$ ， $S_k=[s_{1,k},s_{2,k},...,s_{N,k}]$ ,DBSs在步骤k的状态矩阵
Actions：寻找服务的集群，或者是在服务几个集群后将返回的原始位置，所有DBS在步骤k动作组成的向量为 $a_k =[a_{1,k},a_{2,k},...,a_{N,k}]$
Strategy：在给定状态 $s_{n,k}$ 下选择给定动作 $a_{n,k}$ 的概率，表示为 $\pi_n(a_{n,k}|s_{n,k})$ , $\pi=[\pi_n(a_{n,k}|s_{n,k})]_{n \in \mathcal N,k \in \mathcal K}$ 是所有DBS的策略组成的向量
Policy function： $\pi_{\theta_{a,n}}$ 为一个由参数 $\theta_{(a,n)}$ 确定的深度神经网络，输入是状态，输出是策略
Reward：每个DBS的reward衡量了选定行动的收益
- 为了最大限度地扩大所考虑区域的覆盖范围，每个DBS的奖励被定义为所有DBS实现的成功服务率， $r(a_k|S)=\sum_{n \in \mathcal{N}} \mu_{n,k}(\xi)$
- 不同于传统的RL算法，即每个代理只最大化其自身可实现的效用，我们提出的VD-RL算法使每个DBS能够最大化所有DBS的效用，也称为团队阶段奖励 team stage reward
Value function: $V(S_k)$ 是一个深度神经网络,用来评估每个状态 $S_k$ 下DBSs可实现的future reward
- DBS的目标是找到最大化预期团队效用expected team utility的团队最优策略 team optimal strategy——DBSs必须考虑每个状态下当前和未来可以实现的reward
- discounted future reward : $\sum_{n \in \mathcal{N}}\sum_{\kappa=k}^K\gamma^{k-\kappa+1}r(a_\kappa|S)$ ，由 $V(S_k)$ 估计, $\gamma$ 是discounted factor
- $\gamma$ 决定了步骤的规模
  - 接近1的 $\gamma$ 提供了一个长期目标，该目标将在未来积累奖励，而接近0的 $\gamma$ 则提供了一种短视目标，DBS只关注即时奖励
  - 对future reward的适当缩放/贴现scaling/discounting可以帮助学习算法更快地收敛到最优解

DBSs是一步一步地选择行动，并获得团队阶段奖励 team stage rewards作为反馈
向量experience : $e_n = [s_{n,1},a_{n,1},r(a_1| S),...,s_{n,K},a_{n,K},r(a_K|S)]$ ,从每个 $DBS_n$ 收集到——使用收集到的经验更新 value function 和 strategies,从而最大化 future estimated
DBSs返回初始位置后回更新对future rewards 的估计
在初始位置，每个 $DBS_n$ 只需指导所有DBSs上次experience服务的活跃用户数量，而不需要知道其他DBS的行动action，就可以更新 future reward
值函数V(S_k)取决于所有DBSs的状态——单个DBS无法单独训练其价值函数—— value decomposition

3.1.2 Value Decomposition

目标：

算法需要找一个值函数 value function 来精准评估 future rewards，并且最小化 temporal difference(TD) error metric，定义如下：
- TD error $A(a_k,S_k)$ : DBSs在状态 $S_k$ 和动作 $a_k$ 下的 team advantage

分配给每个DBS的价值必须加强团队的有益行动team beneficial actions，并削弱每个DBS的所有其他行动

假设： $V(S_k)$ 是每个DBS的值函数之和
在这里插入图片描述
因此，team advantage式子转化为：

在这里插入图片描述
从而 DBSs可以单独地更新自己的policy 和 value function

3.1.3 Value Decomposition Based Reinforcement Learning Solution

寻找团队最优策略 team optimal strategy 时，VD-RL算法需要找到在每个状态下准确估计未来奖励 future reward的最优值函数 optimal value functions，以及总是能够在每个DBS中产生导致最高未来奖励的行动的最优策略函数 optimal policy functions

每个 $DBS_n$ 的单个值函数 $\widetilde{V}_{\theta_{c,n}}(S_n,k)$ 的更新由下式确定：
在这里插入图片描述

单个 $DBS_n$ 的参数更新策略：

在这里插入图片描述

算法使用 a mini-batch training mechanism
在飞越目标区域时，DBS将通过从其策略功能中采样动作，逐步选择要服务的集群
回到原点后，DBSs将交换他们获得的奖励，并通过累积这些奖励来更新他们的政策和价值函数
对于给定的DBS，体验意味着该DBS将服务于用户请求的一次实现，然后记录其行动、状态和从该服务中获得的奖励——记录的行动、状态和奖励构成了给定DBS的体验

3.1.4 Convergence and Complexity Analysis

Proposition 1：满足以下条件，算法可以收敛到 local team optimal strategy：
在这里插入图片描述

降低问题维度：
- 仅根据DBS的行动和状态更新每个DBS的策略和价值函数
- 只有每个DBS在其轨迹上的每一步所达到的成功服务率和估计的未来回报，即个人价值，将在DBS之间共享和传输
- 允许将这种多智能体维度减少到单个智能体问题的维度
算法复杂度：

使用上述算法的问题： 由于所研究的无线环境是高度动态的，因此必须重复执行算法1中的VD-RL算法，以在每个环境中搜索团队最优策略

解决思路： meta learning

3.2 Meta Training Procedure

模型： model agnostic meta-learning (MAML)

作用： 为VD-RL算法提供了一组建立良好的初始策略 initial policy和值函数 value functions，并对用户请求实现 user request realization 的分布 $P(\mathcal Z)$ 进行了适当的估计
损失函数 Loss function: 每次更新后的策略和值函数与团队最优策略和值函数之间的距离

通过最小化上面两个式子，元学习方法会将策略和值函数的参数朝着服从从 $p(\mathcal Z)$ 采样的用户请求的最优策略和值函数更新

在这里插入图片描述

$\theta_c = [\theta_{c,1},\theta_{c,2},...,\theta_{c,N}]$ :所有DBS值函数的参数
$\theta_{c,n,j}^{'} = \theta_{c,n} - \alpha \nabla_{\theta_{c,n}}\sum_{k=1}^KA^2(a_k^{(e_{n,j})},S_k^{(e_{n,j})})$ : $DBS_n$ 基于经验 $e_{n,j}$ 的更新后的值函数参数
$\theta_{a,n,j}^{'} = \theta_{a,n} + \alpha_a \sum_{k=1}^K \widetilde{A}_n(a_{n,k}^{(e_{n,j})},S_{n,k}^{(e_{n,j})})\nabla_{\theta_{a,n}}log\pi_{\theta_{a,n}}(a_{n,k}^{(e_{n,j})}|S_{n,k}^{(e_{n,j})})$ : $DBS_n$ 基于经验 $e_{n,j}$ 的更新后的策略函数参数