【V2-笔记-无线接入】随机优化与加强学习

1 篇文章 0 订阅

IEEE Internet of Things Journal

研究内容

为了实践MEC,3GPP推出了一种称为局域数据网络(LADN: local area data network)的新范例的规范性工作。 LADNs在下行链路无线接入中面临的挑战:1 前向回传链路的资源匮乏2不同能力的车辆的服务质量(QoS)的区分。
首先,为解决资源匮乏问题,通过制定Lyapunov函数,进行随机优化最大限度地提高利用率前向回传的资源同时稳定每个车辆的队列(因此有时延)。然后,提出基于MAB(multi-armed bandit)的加强学习算法以实现基于反馈和无反馈传输的最佳协调,从而在能量效率,等待时间和可靠性之间进行权衡。以上的设计满足LADN部署的迫切需求。

建立模型

考虑用于LADN的下行链路无线接入的设计。
LADN用BSs表示: A t f A^f_t Atf。indexed by: n = 1 , … , ∥ A t f ∥ n=1,…,\lVert A^f_t \lVert n=1,Atf

V2X应用与两类信息相关:本地信息与全局信息。
K \mathcal{K} K:存储在LDNA中,V2X应用相关的全部信息的集
K n l ∈ K \mathcal{K}^l_n\in\mathcal{K} KnlK:本地信息的集
K n g ∈ K \mathcal{K}^g_n\in\mathcal{K} KngK:全局信息的集

A.Popularity of Information

将在 K \mathcal{K} K中的信息按照受欢迎程度排序:
k = 1 , ⋅ ⋅ ⋅ , ∣ ∣ K ∣ ∣ k = 1,··· ,||\mathcal{K}|| k=1,,K
可能性的分布the probability that a vehicle requests for the kth popular information follows the distribution:

在这里插入图片描述

H ∣ ∣ K ∣ ∣ = ∑ k = 1 ∣ ∣ K ∣ ∣ 1 k ξ , ξ ∈ [ 0 , ∞ ) H_{||\mathcal{K}||}=\sum^{||\mathcal{K}||}_{k=1}\frac{1}{k^\xi},\xi\in[0,\infty) HK=k=1Kkξ1,ξ[0,)是偏斜因素
the set of information cached in the nth BS is K n l ∪ K n g \mathcal{K}^l_n\cup\mathcal{K}^g_n KnlKng
the set of information stored in the cloud server at time t: K t b ∈ K \mathcal{K}^b_t\in\mathcal{K} KtbK
The set of information that a vehicle is able to access
在这里插入图片描述

B. Queueing Model of Task Processing in a Vehicle

车辆获得所需信息的总体延迟(如处理任务)取决于两个因素:

  1. 信息在LADN还是在云
  2. 从BS发送到车辆的信息是否使用有反馈的传输

(第一个因素可以在第2层通过优化前传资源利用来解决,第二个因素可以在第1层通过优化传输方案处理)

本节讨论第一种。


U k ( t ) U_k(t) Ukt表示车辆在时间t时需要第k个最受欢迎信息的任务队列的长度, The
dynamics of U k (t) can be expressed by
在这里插入图片描述
a k ( t ) a_k(t) ak(t) is the number of arrived task requiring the kth most popular information
u k ( t ) u_k(t) uk(t) is the number of proceed tasks requiring the kth most popular information

在这里插入图片描述
ϖ l \varpi_l ϖl and ϖ g \varpi_g ϖg are the processing rates if the kth most popular information is obtained from BSs in a LADN and from the cloud server, respectively.

C. Downlink Information Transmissions

对于基于反馈的传输,如果车辆不能成功解码下载的数据块,则它应该通过回复NACK消息通知发射机BS重传数据块。实际中,有规定重传上限 R R R,当一个数据块在 R R R次重传后,车辆仍然不能成功解码该数据块,数据块就会被丢弃,即丢弃事件。

A BS may perform each retransmission using the same transmission power :
E ( ∣ s r ∣ 2 ) = P \mathbb{E}(|s_r|^2)=P E(sr2)=P, where s r s_r sr is the transmitted data block of the rth retransmission;

  • 对于发送:
    ρ s \rho_s ρs是发送反馈ACK/NACK的能耗比率, ( 0 ≤ ρ s ≤ 1 ) (0 ≤\rho_s ≤ 1) (0ρs1)
    For the feedback based transmissions:
    E s = E s d + ρ s E s d E_s = E^d_s+\rho_s E^d_s Es=Esd+ρsEsd
    E s d E^d_s Esd:在基站发送一个数据块的能耗
    ρ s E s d \rho_sE^d_s ρsEsd:在车辆发送\ACK/NACK信息的能耗
    故,对于无反馈情况: E s = E s d E_s = E^d_s Es=Esd

  • 对于接收:
    ρ r \rho_r ρr是接收反馈ACK/NACK的能耗比率, ( 0 ≤ ρ r ≤ 1 ) (0 ≤\rho_r ≤ 1) (0ρr1)
    For the feedback based transmissions:
    E r = E r d + ρ r E r d E_r = E^d_r+\rho_r E^d_r Er=Erd+ρrErd
    E r d E^d_r Erd:在车辆端接收一个数据块的能耗
    ρ r E r d \rho_rE^d_r ρrErd:在基站接收ACK/NACK信息的能耗
    故,对于无反馈情况: E r = E r d E_r = E^d_r Er=Erd

用于避免资源短缺的随机优化

A. Stochastic Optimization for Resource Utilization

在LADN的前传链路上解决资源饥饿的随机优化可以表述如下


  • 定义1:在t时间,从云服务器下载的信息总量:
    在这里插入图片描述
    where 1 b k 1_{bk} 1bk is an indicator
    在这里插入图片描述

  • 优化1:
    在t时间,一辆汽车连接到的BS的数量
    在这里插入图片描述
    ϑ \vartheta ϑ denote the maximum amount of information permitted to be downloaded from the cloud server
    前向回路资源使用的优化:
    在这里插入图片描述(6)的目的是最小化受两个约束限制下,连接到的BS的时间平均数:1.time-averaged amount of information downloaded from the cloud server does not exceed ϑ \vartheta ϑ 2.stabilizes the task queue in a vehicle
    引入虚拟队列X(t)以解决这个随机优化问题:
    在这里插入图片描述
    要稳定此虚拟队列,必要和充分的条件是: n b ˉ &lt; ϑ \bar{n_b}&lt;\vartheta nbˉ<ϑ

  • 优化2
    在这里插入图片描述
    V>0是使用BS的加权成本参数, a large V implies a large cost to connect to a BS.


  • 定义2: 令g(I)表示(8)的增量,被连接到的基站缓存信息 I ∈ I I\in\mathcal{I} II
    在这里插入图片描述

  • 论点1 :Consider the case of two BSs (say i and j) that cache information I i I_i Ii and I j I_j Ij , respectively.If a vehicle connects to both BSs sequentially, then the order of selecting i and j does not affect the performance
    在这里插入图片描述
    where I i ∖ I j I_i\setminus I_j IiIj denotes subtracting I j I_j Ij from the set of I i I_i Ii .


  • 定理1
    至少使用贪婪方法时,(8)是易处理的。在贪婪方法中,车辆首先连接到BS可以提供(8)的最大的提升,然后连接到的BS可以提供(8)的第二大的提升,等等,直到目标无法进一步改善。
    在这里插入图片描述

B. Performance Analysis

采用Lyapunov drift function 可以分析上面提到的方法的性能。
优化1的二次Lyapunov函数:
在这里插入图片描述
为了得到动态的L(t),Lyapunov漂移函数可以表示为
在这里插入图片描述
为了稳定队列,Lyapunov漂移函数的预计值为负,以减少总队列长度.为最小化车辆连接到的BS数,可以引入drift-plus-penalty function:在这里插入图片描述
所以,drift-plus-penalty function得到BS的使用数与时延表现之间的权衡。


  • 定理2:
    使用算法1时,优化1的性能受限于:
    在这里插入图片描述

用于下行信息传输的基于加强学习的MAB算法

A. Capacities of Feedback based and Feedbackless Transmissions基于反馈和无反馈传输的能力

重传方法For the feedback based transmissions, two types of retransmission schemes have been widely deployed in mobile networks: incremental redundancy (IR) based HARQ and chase combining (CC) based HARQ。结论:基于IR的HARQ能够有效地提高解码性能

For the IR based HARQ, each retransmitted data block are encoded into M coded
bits, coding rate is δ f = D / R M \delta^f = D/RM δf=D/RM

  • 结论1 The capacity of the IR based HARQ with R retransmissions is
    在这里插入图片描述
  • 结论2 The capacity of performing R transmission repetitions in one-shot is

在这里插入图片描述

B. Outage Probability and Drop Probability中断概率和丢弃概率

中断事件发生于不满足信道容量 在接收器侧(即,车辆侧),当信道容量小于要在数据块中发送的D信息时发生中断事件。

  • For the feedback based transmissions, the outage probability is defined by
    在这里插入图片描述
  • for the feedbackless transmissions, the outage probability is the same。

丢弃事件发生于不能正确解码 a drop event occurs when a receiver cannot correctly decode D information bits when all R repetitions/retransmissions(重复/重发) have been received.

  • For the feedbackless transmissions, it is clear that the drop probability P d r o p l ( R ) P^l_{drop} (R) Pdropl(R) is the same as the outage probability.
  • 结论3 For the feedback based transmissions
    The drop probability of the IR based HARQ with R retransmissions:
    在这里插入图片描述
    q s ( r ) q_s(r) qs(r): the probability that the data block is successfully decoded at the rth retransmission
    ϱ \varrho ϱ: the probability that a feedback message is successful received at the transmitter side.

C. Transmission Latency

任务到达遵从泊松分布。在 Pollaczek-Khinchin formula (P-K formula) 的推动下,可以分析传输时延。 λ k \lambda_k λk:mean arrival
The transmission latency can thus be approximated by:
在这里插入图片描述

  • 结论4 The transmission latency using the feedbackless transmissions with r repetitions is given by
    在这里插入图片描述
  • 结论5 The transmission latency using the IR based HARQ with R retransmissions is given by
    在这里插入图片描述
    在这里插入图片描述

D. Reinforcement Learning based MAB Algorithm

基于反馈的传输增加了时延和能耗,接收到反馈信息会停止重传,提高频谱效率;基于无反馈的传输少时延和能耗,传输具有大量重复的数据块以增强可靠性,频谱效率低;因此,基于反馈和无反馈的传输之间存在协调,并且BS应该决定采用无反馈传输或基于反馈的传输。

H. Robin, “Some aspects of the sequential design of experiments,”
in Bulletin of the American Mathematical Society, vol. 55, 1952, pp.
527–535.
[36] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduc-
tion. Cambridge, Massachusetts: The MIT Press, 1998.

MAB的最初的形成是为了找到最佳策略,以最大化来自多个老虎机的整体奖励。
BS的目标是,当每个时间t作出的决策 ψ t ∈ Ψ \psi_t\in \Psi ψtΨ时,最小化结果代价 σ ψ t \sigma^{\psi_t} σψt

  • 优化3
    最小化长期开销预计的MAB被制定为:
    在这里插入图片描述
    为得到 optimum tradeoff between reliability, latency and energy efficiency, 开销方程为:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    η η η β β β代表不同能力的车辆所需的不同QoS要求。
    e.g. η ( o r β ) ↑ η (or β)\uparrow η(orβ)时延(能耗)性能要求高

BS的最优决策的停留时间与信道环境是否多变有关; in the non-stationary condition in which channel quality may severely change over time, when a BS finds the optimum decision, this decision could only be optimum for a short period of time.
BS不必改变决策的时间段被称为决策时期,并且在随后的决策时期,BS需要评估所有可能决策的成本。

在时间t做出决策的折扣成本:在这里插入图片描述
在非静态条件下,应用【36】的结论来更新 Q ψ t Q^{\psi_t} Qψt,使 Q ψ t Q^{\psi_t} Qψt最小。
在这里插入图片描述
由于在利用已经找到的决策或探索可能提供更好性能的其他决策之间存在平衡,我们提出了基于强化学习的MAP算法,即算法2

BS决策:在这里插入图片描述
在这里插入图片描述

E. Further Discussion

因为无反馈传输已经成为支持3GPP NR中的URLLC的强制功能,3GPP NR已经提供了可行的第1层过程( Layer 1 procedures)。一个可能的方法是:A possible scheme is to allow asynchronous feedback reply, in which a vehicle can reply feedback message at any time on the reserved resources.例如:在重传之前或之后, 只要前向数据块传输被成功解码,车辆就回答ACK。或者,当BS请求车辆执行此操作时,车辆应答ACK / NACK。请注意,这种反馈回复仅用于信道估计,使得BS能够进一步改善下行链路性能。

性能评估

A. Resource Utilization Within a LADN and on the Backhaul Link

global skew factors ξ \xi ξ
local cache (with a storage capacity Z l Z_l Zl data blocks) and global cache (with a storage capacity Z g Z_g Zg data blocks) to store location-based and global-wise information, respectively
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

B. Transmission Performance

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值