[论文笔记]DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems

这是一篇来自IEEE ACCESS的paper(影响因子19年3.745),18年4月发表,到本博客的时间点被引了18次,值得一提的或许是这文的一作是一个IEEE的Fellow YANG YANG。

摘要

覆盖范围系统容量的折衷及联合优化在大规模MIMO无线系统中是重要且有挑战性的。

  1. 本文提出的方法名为GAUSS(Group Alignment of User Signal Strength),用来支持大规模MIMO系统的用户调度,为优化覆盖范围和系统容量(CCO, Coverage and Capacity Optimization)提供有效参数。
  2. 此外,还提出了一种基于DRL的联合优化覆盖范围和系统容量的算法(DECCO),其使用神经网络动态推到CCO期间的GAUSS和SINR_min。
  3. 此外,还提出了一种小区间干扰协调(ICIC)以增强CCO的性能。

经仿真,DECCO可以在系统容量和覆盖范围之间进行平衡,并且可以显著提升频谱效率。

结论

we can set learning clusters to account for learning gains decreasing as opposed to the scale of networks. 未来将在大规模学习中实现覆盖率和容量的优化。

介绍

MU-MIMO(多用户MIMO)可获得比SU-MIMO(单用户MIMO)更好的性能,其可以在同一频谱资源上对cell内的多个UE提供服务,借此改善频谱效率。CCO相关的系统参水包括 参考信号功率、天线倾角、调度参数等。但是在MU-MIMO系统中配置这些参数以改善CCO是困难的。

具体来讲,用户调度机制负责给具有精确的时间和频率分辨率的BS分配合适的频谱资源,同时考虑信道质量和QoS要求。因此我们可以通过找到合适的调度参数来解决CCO而非调整天线倾角。

paper时间和会议方法目的不足
[6]A self-optimization method for coverage-capacity optimization in OFDMA networks with MIMO2011; icst\alpha-fair (一个优化算法)改善覆盖范围仅在SU-MIMO下研究
[7]A novel dynamic Q-learning-based scheduler technique for LTE-advanced technologies using neural networks2012; IEEE LCN动态QL联合优化系统容量和用户公平仅在SU-MIMO下研究
[8]Joint user scheduling and power allocation for massive MIMO downlink with two-stage precoding2016; ICCCJSDM空间划分及复用

联合优化用户调度和功率分配

仅优化系统速率,没考虑覆盖范围
[9]Joint spatial division and multiplexing: Realizing massive MIMO gains with limited channel state information2012; CISSMAX user scheduling;
Lagrange power optimization
联合优化用户调度和功率分配 
[10]User grouping and scheduling for large scale MIMO systems with two-stage precoding2014; ICCK-means用户分组,给不同组分配资源仅优化系统速率,没考虑覆盖范围

本文关键贡献

  1. 提出了一种新颖的调度参数GAUSS,以及统一的服务质量阈值SINRmin,以解决大规模MIMO系统中CCO的难题。
  2. 提出了一种CCO算法 DECCO,其可通过用户调度方案中的预训练神经网络以及新颖的ICIC方案,动态推导GAUSS和SINRmin的最优组合。
  3. 重要指标:小区平均频谱效率、小区边缘的频谱效率,系统容量和覆盖范围。

系统模型及问题陈述

大规模MIMO模型

如图1所示,我们考虑大规模MIMO的下行传输,绿色部分表示小区中心,虚线与实线之间表示小区边缘。对于该系统的CCO来说,用CSAE(小区平均频谱效率)和CESE(小区边缘频谱效率)来描述系统容量,前者是小区中心范围内用户的频谱效率的平均,后者是小区边缘内用户的频谱效率的平均。

每个BS有M_t个天线,最多可同时使用N_r个天线为K个用户提供服务。假设M_t * (K * N_r)维的信道矩阵H在信道相干时间内不变。采用FDD(频分双工)的两阶段预编码方案,接收信号y如下表示:

其中d是传输数据符号向量,z是高斯噪声,B是外部预编码输出,P是内部预编码输出,H是信道矩阵。假设UE的信号以平均功率分配,标准化接收信号\tilde{y}如下表示:

其中P_t是BS的总传输功率,N是噪声功率,x和n是标准信号和高斯噪声。Tr()表示矩阵的迹

问题陈述

考虑到干扰,用户的SINR可表示为:

在MU-MIMO的下行网络中,BS的天线数量比小区内总的接收天线数量要多,因此使用分布式的两阶段编码方案可减少小区间/内干扰。 

瞬时频谱效率表示为:

K是用户数目,\ryo是第k个用户的SINR。 

某一特定区域的KPI定义为:

其中CASE用50%的CDF表示,CESE用5%的CDF表示。 

优化问题建模为:

G是用户的组,其中用户的数量不能超过K*。 

用户信号强度的分组对准

本节介绍最优参数集GAUSS,根据奇异值分解(SVD),可得到:

把(8)代入(5)且\mu = P_t / N可得到:

 其中\lambda是MIMO中每个用户的信道增益,对于小区边缘的用户此值较大,式(9)也可写为:

 其中\gamma_i = \lambda_i/\lambda_1\gamma_1 = 1,\gamma_i < 1(i\neq 1)max(\lambda_i)。到这里我们可得知频谱效率由小部分信道增益因子大的用户来决定。如果小区中心的用户和边界的用户同时调度,那么中心用户的吞吐量将会因边界用户而降低。也就是说,为了防止上述情况出现,我们需要保证min(\lambda_i)max(\lambda_i)不要差距太大。为此,我们引入了新的参数“GAUSS”:

我们使用\xi_i表征i号用户的平均信道增益,那么式(10)可以表示为

 用户的平均信道增益因子按升序排序,再结合用户信号强度R的组对齐,可获得图2。

选择一个用户i后,以用户ξi的平均信道增益为中心,以用户信号强度R的组对齐为半径,确定了可以参与调度过程的合格用户。ξi左侧的用户信道条件优于用户i,其右侧的用户信道条件 ξi不如用户i。 根据先前的分析,在调度过程中,我们应该根据用户的信道条件获得用户集,而目标用户集则由我们如何选择R来控制,即GAUSS的值。 进一步考虑SINRmin,我们可以得到以下不等式

 如果ξi小于β,则调度用户i可以满足(11)中的约束,并且可以与其他用户一起调度; 否则,用户i无法满足(11)中的约束,并且无法与其他用户一起调度以避免较低的SINR。 从这个意义上说,β左侧的用户可以在调度时被重用,但β右侧的用户则不能被重用。另一观察结果是SINRmin确定了β的位置,随着SINRmin的减小,β的向右移动。因此,用户的信道状况越差,系统容量就会降低。 但是,由于位于β右边的用户的SINR较高,因此可以提高覆盖性能。 当增加SINRmin时,系统容量和网络覆盖范围反之亦然。

基于学习的覆盖、容量联合优化

A.先学知识

1)强化学习

 RL作为一个model-free的MDP的解法,状态空间S 动作空间A 奖励函数r是重要的设计要素,agent是执行动作的主体,其在每个时点观察环境并获取自己的状态信息s_t,之后选择动作a_t进行执行。动作执行后发生两件事:1.状态从s_t转移到s_{t+1};2.获取收益r_t

agent仅通过s_t了解环境,仅能控制自己的action。在每次状态转移的时候,我们的目标都是最大化回报R注意与收益不同),R与收益r_t相关,其是一个随机变量,通常用收益的累计折扣期望表征:R = \mathbb{E}[\sum^\infty_{t = 0}\gamma^ir_t],其中\gamma是0~1的折扣系数,表示相比未来的收益更重视当前这步的收益。

2)POLICY

每个时点agent执行决策的过程可以由policy(一种映射关系)表征,\pi(s, a) = Pr\{a_t = a| s_t = s\}, $ {\forall}$s\in \mathcal{S}, a \in \mathcal{A},即在状态s的情况下选择a动作执行的概率。在具体问题中,状态空间和动作空间都很大,所以这个状态和动作的映射关系一般不会用转移概率表示。这种情况下,需要利用函数逼近法来表征policy,即\pi_\theta(s, a),其中的\theta表示函数的参数(这里将此函数想象成神经网络比较合适,因为实际上很多也是用NN的,这个\theta就是神经网络的参数)。函数逼近的另一个优点在于,agent可以对相似的状态采取相似的动作。

3)梯度上升算法

博主注:在强化学习的过程中,我们的总体目标并非是要最大化某个函数,而是要通过迭代不断更新policy的参数,使其在面对各种状态s的时候能做出最大化我们关心的参数的动作决策(具体来讲,动作决策可以理解为资源分配的方案等)。

在没此状态转移更新policy的参数的时候,是以最大化R为目标的,其通常使用梯度上升算法,如下所示:

 其中的Q是在状态s选择动作a所得到的R的期望(这部分来自Q-learning,可以去看一下)。

参数\theta的更新过程如下图所示:

B.用户调度机制

用户调度需同时考虑频谱效率和用户公平性,对于收割用户,我们使用典型的PF调度银子。对于其他用户,我们根据用户信号强度R采用分组对齐以确保频谱效率,同时利用SINR_min来确保用户估计的SINR不小于他来保证系统容量。我们假设L是即将被调度的用户集合,g是已经已经完成调度的用户结合,r_k是用户k的瞬时数据速率,D_k是用户k的平均数据速率,M是已完成调度的用户的数量,K*是已完成调度的用户的最大数量,\labmda_{min}和\lambda_{max}分别是最大和最小的奇异值,R是用户信号强度最大的分组对齐的数值。

本文尝试寻找每个TTI中SINR_{min}和R。最终的用户调度有两个阶段构成:

  1. 每个TTI中,通过DRL算法识别SINR_{min}和R。
  2. SINR_{min}和R由后续的用户调度所使用。

1)深度强化学习算法构建

状态空间:小区内的每个sector被定义为agent,最大化cell的CASE和CESE。我们定义连续的状态空间如下s_t=\{CASE_t, CESE_t\}

动作空间:动作空间由SINR_min和R的参数及组成。假设存在m个离散的SINR_min和n个离散的R的数值。因此动作空间是m*n的矩阵。我们使用DNN作为函数逼近来计算在于给给定state下的policy,policy的输出以最大化回报为目标。

收益:由式17决定,由CASE和CESE两部分组成

 其中\eta(0~1)是权衡CASE和CESE的权重。具体的r定义如下(r_{CESE_t}类似):

2)训练

 policy用神经网络来表征,其输入为状态s_t,输出为不同动作的概率数值。每次训练迭代我们在T个TTI上执行N个episodes(每个episode是从开始到结束的一个完整的马尔科夫链的过程,其中的一个状态转移对应一个TTI)。

C.小区内干扰协调

zero forcing:迫零算法,用于在已知接收信号的前提下,通过导频得知发射信号

干扰协调由测量和预编码完成,缓和小区间干扰的基本策略是zero forcing,其需要相邻小区的信道信息矩阵。为了控制用于区间干扰协调的发射天线的空间自由度,我们定义了了一新系数:边缘用户对于区中心用户的抑制比\delta,其是需要抑制干扰的用户的百分比,以调整在小区内和小区间空间自由度资源的分配。用e_s表示小区边缘用户的数量,\delta=1时表示所有的小区边缘用户需要执行干扰抑制,具体的区内干扰协调方法表示如下:

  1. 每个服务小区测量每个UE的下行平均SINR,并计算所有下行平均SINR低于SINR_min的用户,并将这些用户定义为小区边缘用户。这些小区边缘用户按SINR升序排序。
  2. 每个服务小区发送一个命令给边缘用户以测量强干扰的小区并且估计强干扰小区的信道矩阵。
  3. 每个服务小区形成如表1所示的干扰矩阵

  4. 网络中的每个小区都与X2接口上的各自的干扰矩阵表进行交互,并获得相邻小区的干扰边缘用户信息和这些用户的信道矩阵
  5. 预编码的时候,根据平均SINR的降序排序,每个服务小区选择信道向量构成零空间的受干扰用户,并通过选择每个相邻小区的第一个δ * e_s个用户的信道来进行干扰抑制
  6. 服务小区生成被干扰用户信道矩阵的零空间矩阵,并将外部预编码器与零空间矩阵相乘,以实现对相邻小区的干扰抑制
  7. 服务小区构造内部预编码以形成最终的预编码矩阵

总之,整个DECCO算法是利用用户预先训练好的policy和随后的小区间干扰协调方案组成的,在算法2中得到了总结。

仿真结果

仿真设置

参考国际电信联盟(ITU)的三维城市宏蜂窝模型,BS内有64个天线,UE有两个天线,使用JSDM方法作为下行传输机制。SINR_min被离散化成15个数值,分别为1dB到15dB,R被离散化成20个数值,分别为25-500。其他参数列入表2。

 网络设计方面:输入层两个神经元,分别表示CASE和CESE,输出层300个神经元,表示SINR_min和R的组合。隐藏层有两个,每层100个神经元。此网络共有6,000,000个参数。

网络训练

执行1000此迭代,每次迭代运行20次MC估计(Monte-Carlo可参见这篇博文),使用随机梯度下降更新参数。

 上图展示了不同学习率的影响,可见0.01的学习率从长期来看效果较好。

权重因子的影响

 

 这个权重是SASE和CESE之间的占比, 图6展示了CASE的性能,图7展示了CESE的性能。随着\eta的增大,对CASE的权重增大,因此其性能也变好。可以看到随着BS数量的增加,CESE的下降速度比CASE下降的更快。从这个意义上说,应随着BS数量的增加,通过学习控制CESE的贡献权重因子1-\eta,以有效的优化CESE。

与其他CCO算法的比较

一个对照方案为通过实验获得的最佳的SINR和R的固定配置,其用FO表示;另一个对照方案为按比例公平调度的CCO方案,记作PF。DECCO算法中根据BS数量的不同,其参数整理如表3。

图8 9描绘了提出的DECCO算法和FO、PFO算法的比较,FO算法在CASE上的性能优于PFO算法,但他的性能在CESE上的劣于PFO,因为其安排了具有固定阈值的用户,这些阈值无法跟踪小区间的干扰变化。随着BS数量的增加,DECCO算法相较于FO的优势会降低。在使用中,我们可以通过对BS进行分组,以减轻大规模学习的学习效果。

 图10描绘了不同CCO算法频谱效率的CDF,其中BS的数量N=7,其结果总结在表4中,其中SD是标准差的缩写。\eta=0.3的DECCO在CASE上分别比FO算法和PFO算法高5.6%和18.1%。但对CESE,η= 0.3的DECCO算法分别比FO算法和PFO算法分别高62.9%和7.5%。很明显CESE的性能增益要比CASE大,这是因为CESE的比重要比CASE大。此外,正如我们前面所讨论的,PFO算法在CESE上的性能优于FO算法。

当η= 0.8时,DECCO算法的性能在CESE方面分别比FO算法和PFO算法高22.2%和36.5%,对于CESE,DECCO算法的性能分别比FO算法和PFO算法分别高57.1%和3.8%。 与η= 0.3相反,由于CASE在η= 0.8的奖励计算中起着更重要的作用,因此CASE的性能增益大于CESE。 这与我们对权重因素影响的研究相一致。

一个重要的观察结果是,与FO算法相比,DECCO算法在最大化CESE方面比CASE具有更大的潜力。 除此之外,与PFO算法相比,DECCO算法对CASE的改进更大。 此外,DECCO算法的SD值较小,这意味着覆盖率和容量优化性能更加公平和稳定。 因此,我们讲的DECCO算法在容量覆盖率优化方面通常是最优方法。

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值