A Two-Timescale Resource Allocation Scheme in Vehicular Network Slicing
文章目录
系统建模
网络模型
- BS与车辆们组成的车联网场景,BS能够与车辆通信大量的数据,每个车辆都有其特定的服务需求。
- 三层协议结构:BS接口层(根据每个片的类型来分离片的资源需求,并为片提供不同的接口)、BS虚拟化层(为每个切片分配本地RB)、BS资源层(管理本地RB)。
- BS收集车辆请求信息,提供虚拟平台与所有切片共享网络资源。
切片模型
- 总频谱带宽(本文中也称之为资源) W W W, 共有 V V V个切片collected by V \mathcal V V;
- U v \mathcal U_v Uvdenotes 系统状态(切片 v v v上车辆的集合), ∣ U v ∣ = n v |\mathcal U_v|=n_v ∣Uv∣=nv, n t = ( n 1 t , ⋯ , n v t , ⋯ , n V t ) \boldsymbol{n}^t=\left(n_1^t, \cdots, n_v^t, \cdots, n_V^t\right) nt=(n1t,⋯,nvt,⋯,nVt)表示all V V V slices 的流量需求, n v t n_v^t nvt其实就是切片v上车辆的个数;
- 将切片提供的QoS
R
v
R_v
Rv 定义为车辆传输速率的最小阈值;
r
u
r_u
ru是车辆
u
u
u向BS的传输速率。
r u ≥ R v , ∀ u ∈ U v , v ∈ V r_u \geq R_v, \forall u \in \mathcal{U}_v, v \in \mathcal{V} ru≥Rv,∀u∈Uv,v∈V - 由于流量负载在不同时间发生变化的不确定性因此进行资源预留: W = W s + ∑ v ∈ V W v d W=W^s+\sum_{v \in \mathcal{V}} W_v^d W=Ws+∑v∈VWvd;
问题推导
- 状态 U v t \mathcal U_v^t Uvt下,分配给 v v v切片的资源为 h v t h_v^t hvt;
-
h
~
v
t
\widetilde{h}_v^t
h
vt:满足车辆QoS所需频谱资源的最小值;
h v t {h}_v^t hvt:在 U v t \mathcal U_v^t Uvt下,为片 v v v分配的频谱资源;
h v t ≥ h ~ v t = ∑ u ∈ U v t R v log 2 ( 1 + S I N R u b ) , v ∈ V h_v^t \geq \widetilde{h}_v^t=\sum_{u \in \mathcal{U}_v^t} \frac{R_v}{\log _2\left(1+S I N R_{u b}\right)}, v \in \mathcal{V} hvt≥h vt=∑u∈Uvtlog2(1+SINRub)Rv,v∈V, u b _{ub} ub: 车辆u----基站b - ω u = h v t n v t \omega_u=\frac{h_v^t}{n_v^t} ωu=nvthvt 车辆 u u u可得频谱资源 (资源/车辆数,平均化);
- 车辆
u
u
u传输速率为
r
u
t
=
ω
u
log
2
(
1
+
S
I
N
R
u
b
)
r_u^t=\omega_u \log _2\left(1+S I N R_{u b}\right)
rut=ωulog2(1+SINRub), 根据t + 1 slot 的负载,获取车辆的虚拟速率
r
^
u
′
t
+
1
,
u
′
∈
U
v
t
+
1
\hat{r}_{u^{\prime}}^{t+1},u'\in \mathcal U_v^{t+1}
r^u′t+1,u′∈Uvt+1。用t slot 的需求
h
v
t
h_v^t
hvt而不是基于t+1时刻的
h
v
t
+
1
h_v^{t+1}
hvt+1 来计算
r
^
u
′
t
+
1
\hat{r}_{u^{\prime}}^{t+1}
r^u′t+1。i.e.,
ω
^
u
′
=
h
v
t
n
v
t
+
1
\hat{\omega}_{u^{\prime}}=\frac{h_v^t}{n_v^{t+1}}
ω^u′=nvt+1hvt .
这一定义背后的主要思想是判断最后分配的频谱资源是否能使车辆的通信速率稳定(t 与 t+1)。
∑ u ′ ∈ U v t + 1 r ^ u ′ t + 1 n v t + 1 ≥ R v \frac{\sum_{u^{\prime} \in \mathcal{U}_v^{t+1}} \hat{r}_{u^{\prime}}^{t+1}}{n_v^{t+1}} \geq R_v nvt+1∑u′∈Uvt+1r^u′t+1≥Rv:切片v中的车辆的在t+1时的速率和/切片v在t+1时的流量需求 大于车辆传输速率的最小阈值; - 片资源分配推导为:
p ( 1 ) : min ∑ t ∈ T ∑ v ∈ V h v t s.t. C 1 : ∑ v ∈ V h v t ≤ W , ∀ t ∈ T C 2 : r u ≥ R v , ∀ u ∈ U v , v ∈ V C 3 : ∑ u ′ ∈ U v t + 1 r ^ u ′ t + 1 n v t + 1 ≥ R v , ∀ v ∈ V \begin{aligned} p(1): \min & \sum_{t \in \mathcal{T}} \sum_{v \in \mathcal{V}} h_v^t \\ \text { s.t. } & C 1: \sum_{v \in \mathcal{V}} h_v^t \leq W, \forall t \in \mathcal{T} \\ & C 2: r_u \geq R_v, \forall u \in \mathcal{U}_v, v \in \mathcal{V} \\ & C 3: \frac{\sum_{u^{\prime} \in \mathcal{U}_v^{t+1}} \hat{r}_{u^{\prime}}^{t+1}}{n_v^{t+1}} \geq R_v, \forall v \in \mathcal{V} \end{aligned} p(1):min s.t. t∈T∑v∈V∑hvtC1:v∈V∑hvt≤W,∀t∈TC2:ru≥Rv,∀u∈Uv,v∈VC3:nvt+1∑u′∈Uvt+1r^u′t+1≥Rv,∀v∈V
C1:所有V个切片所占用的频谱资源小于等于总的频谱资源(占用的又叫做专有资源)
C2:车辆u的传输速率需要大于最低阈值 R v R_v Rv
C3:每个切片v上车辆们虚拟的传输速率/车辆的数量,大于一个阈值。(也是平均化)
长时尺度上资源分配,短时尺度上资源调度。长时denoted by ATI,短时denoted by STI。
每个ATI开始时,系统根据之前的服务请求为每个片分配专用资源
W
v
k
,
d
W_v^{k, d}
Wvk,d。
每个STI的开始,基于即时系统状态
U
v
,
v
∈
V
U_v,v \in V
Uv,v∈V,进行微调以满足C2和C3。
-对于长时间尺度的资源分配问题,目标是最小化预测值和实际值之间的误差:
p
(
2
)
:
argmin
W
~
v
k
,
d
∣
W
~
v
k
,
d
−
W
v
k
,
d
∣
p(2): \operatorname{argmin}_{\widetilde{W}_v^{k, d}}\left|\widetilde{W}_v^{k, d}-W_v^{k, d}\right|
p(2):argminW
vk,d
W
vk,d−Wvk,d
其中,
W
v
k
,
d
W_v^{k,d}
Wvk,d 由第 k 个 ATI 内切片 v 的平均服务请求数
和平均信道状态信息 (CSI)
计算得出。 根据预测值
W
~
v
k
,
d
\tilde W_v^{k,d}
W~vk,d,系统进行长时间尺度的专用资源分配。 然而,这些固定资源无法在如此长的时间范围内动态满足车辆的实时性要求。 因此,我们将考虑在 ATI 期间每个 STI 的实时动态流量需求的影响。
-对于短时尺度资源调度问题,每个 STI 的系统状态可能不同,包括服务请求的数量和相应车辆的 CSI。
W
v
k
,
t
W_v^{k,t}
Wvk,t表示第 k 个 ATI 内切片 v 的调度资源。
W
v
k
,
t
>
0
W_v^{k,t}>0
Wvk,t>0意味着分片v上的专用资源不能满足车辆们在当前STI开始时的需求,需要从BS的共享资源池中调度额外的资源。
每个STI的在线资源调度问题可以表示为:
p
(
3
)
:
min
∑
v
∈
V
W
v
k
,
t
s.t.
C
1
−
C
3
C
4
:
h
v
t
=
W
~
v
k
,
d
+
W
v
k
,
t
.
\begin{aligned} p(3): \min & \sum_{v \in \mathcal{V}} W_v^{k, t} \\ \text { s.t. } & C 1-C 3 \\ & C 4: h_v^t=\widetilde{W}_v^{k, d}+W_v^{k, t} . \end{aligned}
p(3):min s.t. v∈V∑Wvk,tC1−C3C4:hvt=W
vk,d+Wvk,t.
C4:切片v在t slot上的频谱资源=其上车辆dedicated资源+shared资源
约束 C3 的存在使问题复杂化。 在资源调度中,不仅需要考虑当前的服务需求,还需要考虑下一个STI由于车辆的移动而产生的服务请求和信道变化。 为了解决这个问题,用强化学习资源调度。
双时间尺度资源分配方案
要获得量化的专用资源,关键问题是如何准确预测未来较长时间尺度的平均资源需求
。------ LSTM
- Input 历史的平均资源需求 { W v k − m , d , W v k − m + 1 , d , ⋯ , W v k − 1 , d } \left\{W_v^{k-m, d}, W_v^{k-m+1, d}, \cdots, W_v^{k-1, d}\right\} {Wvk−m,d,Wvk−m+1,d,⋯,Wvk−1,d},output 预测的 W ~ v k , d \widetilde{W}_v^{k, d} W vk,d,为下一阶段进行资源调度提供了基线。
- 在为每个切片分配专用资源后,需要使用在线资源调度算法来校准所分配的资源,也就是
短时的资源调度算法,采用DDPG
,发生在STI上。 - 状态: ( W ~ 1 k , d , W ~ 2 k , d , ⋯ , W ~ V k , d , h ~ 1 t , h ~ 2 t , ⋯ , h ~ V t ) \left(\widetilde{W}_1^{k, d}, \widetilde{W}_2^{k, d}, \cdots, \widetilde{W}_V^{k, d}, \widetilde{h}_1^t, \widetilde{h}_2^t, \cdots, \widetilde{h}_V^t\right) (W 1k,d,W 2k,d,⋯,W Vk,d,h 1t,h 2t,⋯,h Vt) 专用资源和资源需求阈值
- 动作: ( W 1 k , t , W 2 k , t , ⋯ , W V k , t ) \left(W_1^{k, t}, W_2^{k, t}, \cdots, W_V^{k, t}\right) (W1k,t,W2k,t,⋯,WVk,t) 每个切片调度资源;
- 奖励:
r
t
=
∑
v
∈
V
ϕ
(
h
v
t
)
+
∑
v
∈
V
β
v
⋅
I
(
h
v
t
)
+
δ
(
h
t
)
r_t=\sum_{v \in \mathcal{V}} \phi\left(h_v^t\right)+\sum_{v \in \mathcal{V}} \beta_v \cdot I\left(h_v^t\right)+\delta\left(\boldsymbol{h}^t\right)
rt=∑v∈Vϕ(hvt)+∑v∈Vβv⋅I(hvt)+δ(ht)
where
ϕ ( h v t ) = { ln ( h ~ v t h v t ) , if h v t ≥ h ~ v t ln ( h v t h ~ v t ) , if h v t < h ~ v t δ ( h t ) = { − ∞ , if ∑ v ∈ V h v t > W 0 , otherwise \begin{gathered} \phi\left(h_v^t\right)=\left\{\begin{array}{lc} \ln \left(\frac{\widetilde{h}_v^t}{h_v^t}\right), & \text { if } h_v^t \geq \widetilde{h}_v^t \\ \ln \left(\frac{h_v^t}{\widetilde{h}_v^t}\right), & \text { if } h_v^t<\widetilde{h}_v^t \end{array}\right. \\ \delta\left(\boldsymbol{h}^{\boldsymbol{t}}\right)= \begin{cases}-\infty, & \text { if } \sum_{v \in \mathcal{V}} h_v^t>W \\ 0, & \text { otherwise }\end{cases} \end{gathered} ϕ(hvt)=⎩ ⎨ ⎧ln(hvth vt),ln(h vthvt), if hvt≥h vt if hvt<h vtδ(ht)={−∞,0, if ∑v∈Vhvt>W otherwise
ϕ ( h v t ) \phi\left(h_v^t\right) ϕ(hvt) :无论是否达到满足车辆QoS所需资源的最小值,奖励都是负数。除非相等,则为0,使得代理倾向于分配资源来精确地满足切片的需求。
I ( h v t ) I(h_v^t) I(hvt)是指示因子函数,C3(速率大约最低速率)满足则为1,不满足为0; β = { β 1 , β 2 , ⋯ , β V } \boldsymbol{\beta}=\left\{\beta_1, \beta_2, \cdots, \beta_V\right\} β={β1,β2,⋯,βV}为各切片的权重,通过调节β可保证不同片的稳定性能要求。
实验分析
所提出的LSTM-DDPG总是优于其他几种对比算法,因为它包含了一个对平均资源需求的预测阶段,这使得代理在长时间和短时间尺度内都能更好地适应RB需求的变化。