干扰管理学习日志15-------强化学习_波束成形_CSI


本文是对论文《Robust Distributed MISO Beamforming Using Multi-Agent Deep Reinforcement Learning》的分析,若需下载原文请依据前方标题搜索,第一作者为Haonan Jia

一、文章概述

在本篇文章中,作者使用DDPG强化学习方法,基于系统当前的状态,为基站选择总功率、单用户功率以及波束成形器,以达到最大化信道容量的目的。

二、系统环境

在这里插入图片描述
系统环境如上图所示,在一个无线系统中,密集部署N个六边形小区,每个小区由具有M个天线的基站(BS)和具有K个单天线的移动移动用户组成(MISO)。

三、系统模型

在这里插入图片描述
系统任务为最大化小区的信道容量和,约束条件为基站功率上限值。

四、算法详解

1.输入状态

在这里插入图片描述
输入状态包括三个部分,为当前信道状态信息、干扰强度(温度)以及单用户信道容量,由用户在上一个时隙测定并且反馈给连接基站。

2.输出动作

在这里插入图片描述
输出动作包括,对每个用户的归一化功率、基站功率总和以及波束成形器的选择。
在这里插入图片描述
在这里插入图片描述取值为0和1分别代表迫零(ZF)和最大速率传输(MRT)方法。

3.环境反馈

在这里插入图片描述
环境反馈由两个部分构成,第一部分为系统平均信道容量。
在这里插入图片描述
第二部分如上式展开,考虑了每个用户的信道容量以及信道噪声对容量的影响。
(核心是噪声大,削减容量,也就是对于环境反馈的修正)。

五、性能表征

1.信道可靠性与平均信道容量

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@白圭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值