Distributed Multi-Agent Meta Learning for Trajectory Design in Wireless Drone Networks

1 INTRODUCTION

问题

  • 如何有效部署一组无人机基站 drone base stations(DBSs) ——设计轨迹,从而在动态无线环境中为地面用户 ground users 提供及时的按需无线连接 wireless connectivity
  • 如何根据有限的地面用户无线请求信息——往往高度不可预测和动态的,从而为一组独立的DBSs设计轨迹

1.1 Related Works

  • 基于优化:没有考虑实际的DBSs辅助无线网络——用户对无线连接请求遵循不可预测的模式
  • 基于强化学习RL/多智能体强化学习 multi-agent reinforcement learning (MARL):
    • 高复杂性:通过更新策略来解决多智能体问题,该策略基于整个智能体的行动和策略集,其维度随智能体数量呈指数级增长
    • DBs无法优化整个系统的总效用 ,因此无法最大限度地扩大地面用户的总体覆盖范围:DBs正在优化其各自的效用 individual utilities
    • 无法有效地将DBS的轨迹调整到未知环境中:算法的超参数、探索策略和初始化是手动调整的,以适应当前的训练任务

1.2 Contributions

在不可预测的动态环境中设计一组协作DBSs的轨迹:

  • 考虑了一种实用的无人机辅助无线系统,在该系统中,一组DBSs在严格的能量约束和有限的周围环境信息下,在一个区域内协同导航,目的是为地面用户提供上行链路无线连接——将这个路径设计问题公式化为一个优化框架 optimization framework,其结构被证明是非凸 non-convex的
  • 提出了一个新的分布式值分解强化学习(VD-RL)算法 novel, distributed, value decomposition reinforcement learning (VD-RL) algorithm
    • 不需要 共享 无人机的行动 action、状态 state或策略 strategies,就能达到所研究问题的非凸问题的局部最优解
    • 不 复杂,相较于传统分布式 MARL 算法——DBSs可以根据他们自己的低维行动和状态来更新策略
    • 允许DBSs独立选择策略,通过将团队效用分解并归因于每个DBS来最大化团队效用
  • 提出了一种元训练机制 meta training mechanism,该机制使用基于优化的解决方案来元训练VD-RL算法 ——估计VD-RL算法的所有可能的用户请求模式,从而找到适当的策略和价值函数 value funcation 初始化
    • 应对未知任务时,可以加快收敛速度
    • 更低的复杂度——不需要额外的神经网络
    • DBSs可以通过自己的行动和状态进行独立的元训练
    • 可以应对各种任务

2 SYSTEM MODEL AND PROBLEM FORMULATION

假定:

  • 用户被分成不同的组,每个组被称为一个集群 cluster——“集群”是指只属于一个DBS服务范围内的区域
  • 在任何给定的时间,每个集群都将由一个DBS提供服务
  • 所有的DBS具有相同的电池容量

  • DBSs 以稳定的水平直线飞行 steady straight-and-level flight (SLF) 穿越集群clusters
  • DBSs 以稳定的环形飞行 steady circular flight (SCF)
  • 恒速 V s V_s Vs
  • 每个DBS以自身恒定的高度 H n H_n Hn飞行,避免与其他DBSs碰撞
  • 所有的DBS必须在用于电池冲断的时间段T内返回到它们的原始未知O

在这里插入图片描述

2.1 Communication Performance Analysis

  • 用户采用正交频分多址(orthogonal frequency division multiple access,OFDMA)技术,并在一组上行链路资源块(resource blocks,RB)上发送数据
  • 每个调度的DBS任意地将一个RB分配给集群内每一个关联用户

假定:

  • service area: 每个DBS可以在每个集群的 d r d_r dr米半径内持续为相关用户提供服务
  • 用户 u u u在一个时间段 time epoch t u t_u tu内请求总共 b u b_u bu比特位的数据, b u b_u bu t u t_u tu是遵循未知分布的独立随机变量
  • 部署的DBS是短视myopic的,即它们只知道它们当前服务的用户的访问量和活动时间
  • 由于实际系统中的DBS数量较少,那么假设每个DBS将使用自己的专用频带 dedicated frequency band 来避免对地面链路的LoS的干扰

  • b = [ b 1 , b 2 , . . . , b U ] b = [b_1,b_2,...,b_U] b=[b1,b2,...,bU] : 网络中用户的访问请求的数量的向量
  • t = [ t 1 , t 2 , . . . , t U ] t = [t_1,t_2,...,t_U] t=[t1,t2,...,tU]:网络中发生用户访问请求的时间段的向量
  • z = [ b , t ] z = [b,t] z=[b,t]: 持续时间T内,用户的访问请求

  • D B S n {DBS} _n DBSn和用户 u u u之间的视距(line-of-sight,LoS)和非视距(none-line-of-sight,NLoS)的air-to-ground 通信链路的路径损耗 pass losss(dB)由流行的air-to-ground model 给出
    在这里插入图片描述

    • f c f_c fc:载波频率 carrier frequency
    • d u , n d_{u,n} du,n:用户 u u u D B S n {DBS} _n DBSn之间的距离
    • c c c:光速
    • ς u , n L o S \varsigma^{LoS}_{u,n} ςu,nLoS D B S n {DBS} _n DBSn和用户 u u u之间在LoS air-to-ground链路上的额外路劲损耗,遵循高斯分布—— ( μ L o S , δ L o S 2 ) (\mu_{LoS},\delta^2_{LoS}) (μLoS,δLoS2)
    • ς u , n N L o S \varsigma^{NLoS}_{u,n} ςu,nNLoS D B S n {DBS} _n DBSn和用户 u u u之间在NLoS air-to-ground链路上的额外路劲损耗,遵循高斯分布—— ( μ N L o S , δ N L o S 2 ) (\mu_{NLoS},\delta^2_{NLoS}) (μNLoS,δNLoS2)

D B S n {DBS} _n DBSn和用户 u u u之间的路径损耗值被认为随着 D B S n {DBS} _n DBSn的移动是稳定的,因为当 D B S n {DBS} _n DBSn在服务区域内飞行时, D B S n {DBS} _n DBSn和用户 u u u之间的距离只会发生很小的变化

  • D B S n {DBS} _n DBSn和用户 u u u之间的LoS和NLoS链路的信噪比为:
    在这里插入图片描述

    • P P P: 用户 u u u的发射功率transmit power——假设所有用户的发射功率相等
    • N 0 N_0 N0:噪声功率谱密度 noise power spectral density
    • B B B:链路资源块RB带宽 bandwidth(对于所有RBs相等)
  • D B S n {DBS} _n DBSn和用户 u u u之间链路的数据速率data rate:
    在这里插入图片描述

    • β u , n L o S = [ 1 + φ e x p ( − ϕ 180 π θ n , u + φ ϕ ) ] − 1 \beta^{LoS}_{u,n}=[1+\varphi exp(-\phi {180 \over \pi}\theta_{n,u}+\varphi\phi)]^{-1} βu,nLoS=[1+φexp(ϕπ180θn,u+φϕ)]1: D B S n {DBS} _n DBSn和用户 u u u之间存在LoS链路的可能性
    • 1 − β L o S 1-\beta^{LoS} 1βLoS: D B S n {DBS} _n DBSn和用户 u u u之间存在NLoS链路的可能性
    • φ , ϕ \varphi,\phi φ,ϕ是常数,取决于被研究的通信环境
    • θ n , u \theta_{n,u} θn,u D B S n {DBS} _n DBSn和用户 u u u之间的仰角 elevation angle、

2.2 Utility Function Model

  • 被调度的DBSs的目标:覆盖地面用户的所有访问请求 access request
  • 每个DBS的效用函数:成功服务率successful service rate—— 捕获了给定DBS在给定时间段内为用户提供服务的比例
  • D B S n {DBS} _n DBSn到达一个集群时,它将仅服务于未被服务的用户请求 —— 若多个DBS同时到达一个集群,若其中一个DBS将服务整个集群,那么其他DBS将会直接向其他集群前进
  • 一旦某个DBS发现(在其有限的态势感知下)另一个DBS正在集群的服务区域上悬停,它就知道该集群正在被服务,并且它将离开该集群

D B S n DBS_n DBSn服务某个集群 ξ n , k \xi_{n,k} ξn,k 的successful service rate 的表达式:
在这里插入图片描述

  • ξ = [ ξ 1 , ξ 2 , . . . , ξ N ] \xi = [\xi_1,\xi_2,...,\xi_N] ξ=[ξ1,ξ2,...,ξN]:DBSs的轨迹矩阵
  • U n , k \mathcal{U}_{n,k} Un,k: ξ n , k \xi_{n,k} ξn,k 中的活跃用户集合 active user
  • τ n , k \tau_{n,k} τn,k:在成功服务集群 ξ n , k \xi_{n,k} ξn,k后,允许 D B S n DBS_n DBSn以其剩余能量水平保持飞行的持续时间—— available service time , D B S n DBS_n DBSn在步骤k
  • 1 { x } \Bbb{1}_{\{x\}} 1{x} = 1 : x x x为true,否则式子为0
  • ∑ u ∈ U 1 { 0 ≤ t u ≤ T } \sum_{u \in \mathcal{U}}\Bbb{1}_{\{0 \leq t_u \leq T \}} uU1{0tuT} : 在所研究的持续时间内的活跃用户的数量
  • ∑ u ∈ U 1 { u ∈ U n , k , T − τ n ∗ ≤ t u ≤ T − τ n , k } \sum_{u \in \mathcal{U}}\Bbb{1}_{\{u\in \mathcal{U}_{n,k},T-\tau_n^*\leq t_u \leq T-\tau_{n,k} \}} uU1{uUn,k,TτntuTτn,k}:在集群 ξ n , k \xi_{n,k} ξn,k中被 D B S n DBS_n DBSn服务的活跃用户的数量
  • τ n ∗ = m i n n ′ ∈ N n τ n ′ , k ′ \tau_n^* = min_{n^{'}\in \mathcal{N}_n}\tau_{n^{'},k^{'}} τn=minnNnτn,k:在 D B S n DBS_n DBSn之前到达集群 ξ n , k \xi_{n,k} ξn,k的最后一个DBS的可能service time
  • T − τ n ∗ ≤ t u ≤ T − τ n , k T-\tau_n^*\leq t_u \leq T-\tau_{n,k} TτntuTτn,k:用户 u u u D B S n DBS_n DBSn到达前请求访问的时间点,这个时间没有任何其他DBS提供服务
  • N n = { n ′ ∣ n ′ ∈ N \ n , ξ n ′ , k ′ = ξ n , k , τ n ′ , k ′ ≥ τ n , k ′ } \mathcal{N}_n = \{n^{'}|n^{'} \in \mathcal{N} \backslash n,\xi_{n^{'},k^{'}}=\xi_{n,k},\tau_{n^{'},k^{'}} \geq \tau_{n,k^{'}}\} Nn={nnN\n,ξn,k=ξn,k,τn,kτn,k}: 在 D B S n DBS_n DBSn到达集群 ξ n , k \xi_{n,k} ξn,k的DBS集合, ξ n ′ , k ′ = ξ n , k \xi_{n^{'},k^{'}}=\xi_{n,k} ξn,k=ξn,k意味着 ξ n , k \xi_{n,k} ξn,k是被 D B S n ′ DBS_{n^{'}} DBSn服务的第 k ′ k^{'} k个集群
  • τ n , k = T − ∑ κ = 0 k − 1 d n , κ , κ + 1 V − ∑ κ = 1 k − 1 D n , κ ∗ \tau_{n,k} = T-\sum_{\kappa=0}^{k-1}{d_{n,\kappa,\kappa+1}\over V }-\sum_{\kappa=1}^{k-1}{D_{n,\kappa}^*} τn,k=Tκ=0k1Vdn,κ,κ+1κ=1k1Dn,κ
    • d n , κ , κ + 1 d_{n,\kappa,\kappa+1} dn,κ,κ+1是集群 ξ n , κ \xi_{n,\kappa} ξn,κ与集群 ξ n , κ + 1 \xi_{n,\kappa+1} ξn,κ+1之间的距离
    • d n , κ , κ + 1 V d_{n,\kappa,\kappa+1}\over V Vdn,κ,κ+1 D B S n DBS_n DBSn在SLF中从集群 ξ n , κ \xi_{n,\kappa} ξn,κ ξ n , κ + 1 \xi_{n,\kappa+1} ξn,κ+1的时间
    • D n , κ ∗ D_{n,\kappa}^* Dn,κ: D B S n DBS_n DBSn为集群 ξ n , κ \xi_{n,\kappa} ξn,κ服务时悬停所需的时间 hovering time
      在这里插入图片描述
    • D u , n = b u c u , n D_{u,n} = {b_u \over c_{u,n}} Du,n=cu,nbu: D B S n DBS_n DBSn服务用户 u u u的传输i时延 transmission delay, m a x u ∈ n , κ D u , n max_{u \in \mathcal{n,\kappa}} D_{u,n} maxun,κDu,n D B S n DBS_n DBSn为集群中的所有用户服务的时间
    • 2 d r V 2d_r \over V V2dr D B S n DBS_n DBSn在其服务区内的SLF飞行时间
    • U n , k ∗ = u ∣ u ∈ U n , k , T − τ n ∗ ≤ t u ≤ T − τ n , κ \mathcal{U}_{n,k}^* = {u|u \in \mathcal{U}_{n,k},T-\tau_n^*\leq t_u \leq T-\tau_{n,\kappa}} Un,k=uuUn,k,TτntuTτn,κ:在集群 ξ n , k \xi_{n,k} ξn,k中被 D B S n DBS_n DBSn服务的用户集合

2.3 Problem Formulation

team utility: DBSs实现的成功服务率
在这里插入图片描述
目标: 找到最大化预期team utility的最佳轨迹

  • π n ( ξ ∣ ξ n , k , τ n , k ) \pi_n(\xi|\xi_{n,k},\tau_{n,k}) πn(ξξn,k,τn,k): D B S n DBS_n DBSn在可能的服务时间 τ n , k \tau_{n,k} τn,k内成功服务过集群 ξ n , k \xi_{n,k} ξn,k后,前往某个 ξ \xi ξ的概率—— D B S n DBS_n DBSn的策略
  • π = [ π n ( ξ ∣ ξ n , k , τ n , k ) ] n ∈ N , , k ∈ K \pi=[\pi_n(\xi|\xi_{n,k},\tau_{n,k})]_{n \in \mathcal{N},,k \in \mathcal{K}} π=[πn(ξξn,k,τn,k)]nN,,kK : 所有的DBSs的策略组成的向量

team utility 定义转变为:
在这里插入图片描述
其中, ε \varepsilon ε 是DBSs的所有可能轨迹的集合


轨迹设计问题可以公式化为:
在这里插入图片描述

  • (7a): DBSs必须从 ε \varepsilon ε 集合中选择轨迹
  • (7b):表示在考虑的持续时间内,每个 D B S n DBS_n DBSn必须选择为集合 C C C中的一个集群服务或返回原点
  • (7)的最优解保证了DBSs的最大预期团队效用,它被称为团队最优策略 team optimal strategy

问题与挑战

  • (7)的问题是非凸的 non-convex
  • 成功服务率 μ n , k ( ξ ) \mu_{n,k}(\xi) μn,k(ξ)是不可预测的—— 所有用户请求服务的数量的集合 b b b和所有用户请求服务的时间的集合 t t t遵循未知分布
  • 传统的机器学习算法如Q learning、policy gradient、echo statenetworks(ESN)需要手动调整以应对训练任务,且无法应用于未知环境

论文想法 a distributed meta-trained VD-RL algorithm

3 PROPOSED VALUE DECOMPOSITION-REINFORCEMENT LEARNING ALGORITHM WITH META TRAINING

distributed meta-trained VD-RL algorithm : 融合了 value decomposition networkmodel agnostic meta-learningpolicy gradient (PG) framework

  • 为多个DBS找到最优轨迹,算法应能够达到团队最优策略 team optimal strategy——PG无法为一组DBSs找到团队最优策略,因为它会将所有DBSs引导到一个轨迹
  • 适应未知环境,算法不能过拟合于训练任务

3.1 Value Decomposition Based Reinforcement Learning Algorithm

3.1.1算法组成:

  • Agents : 集合 N N N中的DBSs
  • States:
    • 一个代理的状态:由位置——当前服务的集群和能级——返回原点的时间组成, s n , k = [ ξ n , k , τ n , k ] s_{n,k} = [\xi_{n,k},\tau_{n,k}] sn,k=[ξn,k,τn,k]
    • 所有代理的状态: S = { S 0 , S 1 , . . . , S k } S=\{S_0,S_1,...,S_k\} S={S0,S1,...,Sk} S k = [ s 1 , k , s 2 , k , . . . , s N , k ] S_k=[s_{1,k},s_{2,k},...,s_{N,k}] Sk=[s1,k,s2,k,...,sN,k],DBSs在步骤k的状态矩阵
  • Actions:寻找服务的集群,或者是在服务几个集群后将返回的原始位置,所有DBS在步骤k动作组成的向量为 a k = [ a 1 , k , a 2 , k , . . . , a N , k ] a_k =[a_{1,k},a_{2,k},...,a_{N,k}] ak=[a1,k,a2,k,...,aN,k]
  • Strategy:在给定状态 s n , k s_{n,k} sn,k下选择给定动作 a n , k a_{n,k} an,k的概率,表示为 π n ( a n , k ∣ s n , k ) \pi_n(a_{n,k}|s_{n,k}) πn(an,ksn,k), π = [ π n ( a n , k ∣ s n , k ) ] n ∈ N , k ∈ K \pi=[\pi_n(a_{n,k}|s_{n,k})]_{n \in \mathcal N,k \in \mathcal K} π=[πn(an,ksn,k)]nN,kK是所有DBS的策略组成的向量
  • Policy function π θ a , n \pi_{\theta_{a,n}} πθa,n为一个由参数 θ ( a , n ) \theta_{(a,n)} θ(a,n)确定的深度神经网络,输入是状态,输出是策略
  • Reward:每个DBS的reward衡量了选定行动的收益
    • 为了最大限度地扩大所考虑区域的覆盖范围,每个DBS的奖励被定义为所有DBS实现的成功服务率 r ( a k ∣ S ) = ∑ n ∈ N μ n , k ( ξ ) r(a_k|S)=\sum_{n \in \mathcal{N}} \mu_{n,k}(\xi) r(akS)=nNμn,k(ξ)
    • 不同于传统的RL算法,即每个代理只最大化其自身可实现的效用,我们提出的VD-RL算法使每个DBS能够最大化所有DBS的效用,也称为团队阶段奖励 team stage reward
  • Value function: V ( S k ) V(S_k) V(Sk)是一个深度神经网络,用来评估每个状态 S k S_k Sk下DBSs可实现的future reward
    • DBS的目标是找到最大化预期团队效用expected team utility的团队最优策略 team optimal strategy——DBSs必须考虑每个状态下当前和未来可以实现的reward
    • discounted future reward : ∑ n ∈ N ∑ κ = k K γ k − κ + 1 r ( a κ ∣ S ) \sum_{n \in \mathcal{N}}\sum_{\kappa=k}^K\gamma^{k-\kappa+1}r(a_\kappa|S) nNκ=kKγkκ+1r(aκS),由 V ( S k ) V(S_k) V(Sk)估计, γ \gamma γdiscounted factor
    • γ \gamma γ决定了步骤的规模
      • 接近1的 γ \gamma γ提供了一个长期目标,该目标将在未来积累奖励,而接近0的 γ \gamma γ则提供了一种短视目标,DBS只关注即时奖励
      • 对future reward的适当缩放/贴现scaling/discounting可以帮助学习算法更快地收敛到最优解

  • DBSs是一步一步地选择行动,并获得团队阶段奖励 team stage rewards作为反馈
  • 向量experience : e n = [ s n , 1 , a n , 1 , r ( a 1 ∣ S ) , . . . , s n , K , a n , K , r ( a K ∣ S ) ] e_n = [s_{n,1},a_{n,1},r(a_1| S),...,s_{n,K},a_{n,K},r(a_K|S)] en=[sn,1,an,1,r(a1S),...,sn,K,an,K,r(aKS)],从每个 D B S n DBS_n DBSn收集到——使用收集到的经验更新 value function 和 strategies,从而最大化 future estimated
  • DBSs返回初始位置后回更新对future rewards 的估计
  • 在初始位置,每个 D B S n DBS_n DBSn只需指导所有DBSs上次experience服务的活跃用户数量,而不需要知道其他DBS的行动action,就可以更新 future reward
  • 值函数V(S_k)取决于所有DBSs的状态——单个DBS无法单独训练其价值函数—— value decomposition

3.1.2 Value Decomposition

目标

  • 算法需要找一个值函数 value function 来精准评估 future rewards,并且最小化 temporal difference(TD) error metric,定义如下:
    在这里插入图片描述
    • TD error A ( a k , S k ) A(a_k,S_k) A(ak,Sk): DBSs在状态 S k S_k Sk和动作 a k a_k ak下的 team advantage

  • 分配给每个DBS的价值必须加强团队的有益行动team beneficial actions,并削弱每个DBS的所有其他行动

假设: V ( S k ) V(S_k) V(Sk)是每个DBS的值函数之和
在这里插入图片描述
因此,team advantage式子转化为:

在这里插入图片描述
从而 DBSs可以单独地更新自己的policy 和 value function

3.1.3 Value Decomposition Based Reinforcement Learning Solution

寻找团队最优策略 team optimal strategy 时,VD-RL算法需要找到在每个状态下准确估计未来奖励 future reward最优值函数 optimal value functions,以及总是能够在每个DBS中产生导致最高未来奖励的行动的最优策略函数 optimal policy functions


每个 D B S n DBS_n DBSn的单个值函数 V ~ θ c , n ( S n , k ) \widetilde{V}_{\theta_{c,n}}(S_n,k) V θc,n(Sn,k)的更新由下式确定:
在这里插入图片描述

单个 D B S n DBS_n DBSn的参数更新策略:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 算法使用 a mini-batch training mechanism
  • 在飞越目标区域时,DBS将通过从其策略功能中采样动作,逐步选择要服务的集群
  • 回到原点后,DBSs将交换他们获得的奖励,并通过累积这些奖励来更新他们的政策和价值函数
  • 对于给定的DBS,体验意味着该DBS将服务于用户请求的一次实现,然后记录其行动、状态和从该服务中获得的奖励——记录的行动、状态和奖励构成了给定DBS的体验

3.1.4 Convergence and Complexity Analysis

Proposition 1:满足以下条件,算法可以收敛到 local team optimal strategy:
在这里插入图片描述

  • 降低问题维度:
    • 仅根据DBS的行动和状态更新每个DBS的策略和价值函数
    • 只有每个DBS在其轨迹上的每一步所达到的成功服务率和估计的未来回报,即个人价值,将在DBS之间共享和传输
    • 允许将这种多智能体维度减少到单个智能体问题的维度
  • 算法复杂度:
    在这里插入图片描述

使用上述算法的问题: 由于所研究的无线环境是高度动态的,因此必须重复执行算法1中的VD-RL算法,以在每个环境中搜索团队最优策略

解决思路: meta learning

3.2 Meta Training Procedure

模型: model agnostic meta-learning (MAML)

  • 作用: 为VD-RL算法提供了一组建立良好的初始策略 initial policy和值函数 value functions,并对用户请求实现 user request realization 的分布 P ( Z ) P(\mathcal Z) P(Z)进行了适当的估计
  • 损失函数 Loss function: 每次更新后的策略和值函数 与 团队最优策略和值函数 之间的距离
    在这里插入图片描述
    在这里插入图片描述

通过最小化上面两个式子,元学习方法会将策略和值函数的参数朝着服从从 p ( Z ) p(\mathcal Z) p(Z)采样的用户请求的最优策略和值函数 更新

在这里插入图片描述

  • θ c = [ θ c , 1 , θ c , 2 , . . . , θ c , N ] \theta_c = [\theta_{c,1},\theta_{c,2},...,\theta_{c,N}] θc=[θc,1,θc,2,...,θc,N]:所有DBS值函数的参数
  • θ c , n , j ′ = θ c , n − α ∇ θ c , n ∑ k = 1 K A 2 ( a k ( e n , j ) , S k ( e n , j ) ) \theta_{c,n,j}^{'} = \theta_{c,n} - \alpha \nabla_{\theta_{c,n}}\sum_{k=1}^KA^2(a_k^{(e_{n,j})},S_k^{(e_{n,j})}) θc,n,j=θc,nαθc,nk=1KA2(ak(en,j),Sk(en,j)) : D B S n DBS_n DBSn基于经验 e n , j e_{n,j} en,j的更新后的值函数参数
  • θ a , n , j ′ = θ a , n + α a ∑ k = 1 K A ~ n ( a n , k ( e n , j ) , S n , k ( e n , j ) ) ∇ θ a , n l o g π θ a , n ( a n , k ( e n , j ) ∣ S n , k ( e n , j ) ) \theta_{a,n,j}^{'} = \theta_{a,n} + \alpha_a \sum_{k=1}^K \widetilde{A}_n(a_{n,k}^{(e_{n,j})},S_{n,k}^{(e_{n,j})})\nabla_{\theta_{a,n}}log\pi_{\theta_{a,n}}(a_{n,k}^{(e_{n,j})}|S_{n,k}^{(e_{n,j})}) θa,n,j=θa,n+αak=1KA n(an,k(en,j),Sn,k(en,j))θa,nlogπθa,n(an,k(en,j)Sn,k(en,j)) : D B S n DBS_n DBSn基于经验 e n , j e_{n,j} en,j的更新后的策略函数参数

参数更新方法: 标准随机梯度下降法 standard stochastic gradient descent method
在这里插入图片描述

在这里插入图片描述

4 SIMULATION RESULTS AND ANALYSIS

实验设置:

  • 5个 DBSs 和 300 个移动用户
  • 假定每个用户的请求数量在间隔[20,600]Mbits内遵循均匀分布;每个用户请求的出现遵循高斯分布,标准偏差为1,平均范围为0到40分钟
  • 每个DBSs的价值和策略函数由 feed foward neural networks 生成
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明前大奏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值