本文是对论文《Distributed Q-Learning for Aggregated Interference Control in Cognitive Radio Networks》的分析,若需下载原文请依据前方标题搜索,第一作者为Ana Galindo-Serrano and Lorenza Giupponi
一、文章概述
本篇文章中,作者提出了一种基于强化学习的功率控制方案,使得次级基站合理的利用主基站与主基站服务用户之间的频率空隙进行访问,功率控制的目的是让主基站受到多个次级基站访问时,产生的载波聚合干扰不大于理论阈值。
二、系统环境
整个系统的物理模型如图所示,主基站位于系统中央,其服务于对应的接收用户。在理论保护半径R(R=134.2)km外,存在次级基站,次级基站服务于次级用户。在主基站与接收用户的频率产生空隙时,次级基站访问主基站以获得交互的数据。本文的强化学习算法目的在于控制多个次级基站访问主基站时产生的聚合载波干扰(SINR)不大于理论阈值。
三、算法详述–强化学习
1.输入状态
次级基站的当前状态包括三个参量:当前SINR状态 、与主基站距离、当前功率等级。
其中定义如下
2.输出动作
输出动作为次级基站的不同功率等级。
3.环境反馈
环境反馈以当前SINR与SINR阈值的平方定义。
4.价值函数更新
因为环境反馈以损失(COST)定义,所以系统目标是最小化Q表。
四、性能表征
由图可见,在强化学习的过程中,次级基站对主基站的聚合载波干扰值逐渐下降并低于理论阈值。