本文是对论文《Robust Distributed MISO Beamforming Using Multi-Agent Deep Reinforcement Learning》的分析,若需下载原文请依据前方标题搜索,第一作者为Haonan Jia
一、文章概述
在本篇文章中,作者使用DDPG强化学习方法,基于系统当前的状态,为基站选择总功率、单用户功率以及波束成形器,以达到最大化信道容量的目的。
二、系统环境
系统环境如上图所示,在一个无线系统中,密集部署N个六边形小区,每个小区由具有M个天线的基站(BS)和具有K个单天线的移动移动用户组成(MISO)。
三、系统模型
系统任务为最大化小区的信道容量和,约束条件为基站功率上限值。
四、算法详解
1.输入状态
输入状态包括三个部分,为当前信道状态信息、干扰强度(温度)以及单用户信道容量,由用户在上一个时隙测定并且反馈给连接基站。
2.输出动作
输出动作包括,对每个用户的归一化功率、基站功率总和以及波束成形器的选择。
取值为0和1分别代表迫零(ZF)和最大速率传输(MRT)方法。
3.环境反馈
环境反馈由两个部分构成,第一部分为系统平均信道容量。
第二部分如上式展开,考虑了每个用户的信道容量以及信道噪声对容量的影响。
(核心是噪声大,削减容量,也就是对于环境反馈的修正)。