基于多智能体元强化学习的移动边缘网络合作缓存算法
边缘缓存通过复用网络内容,减少服务延迟,减轻远程链接的流量压力,并提高体验质量。许多研究使用深度强化学习(DRL)方法制定边缘缓存策略。然而,这些传统的DRL方法存在一些局限,如训练时间长、模型泛化能力差以及需要为新任务重新学习网络参数。为了克服这些挑战,本文提出了一种基于多智能体元强化学习的合作边缘缓存算法(MAMRC),包括内外两个模型。内部模型采用多智能体深度强化学习(MADRL)算法,实现分布式基站(BSs)的合作缓存。它提高了缓存命中率并减少了服务延迟。外部模型使用元学习方法学习元参数并初始化内部模型,增强内部模型的泛化能力,使其能够迅速适应新任务。实验结果表明,与传统的DRL方法和基于MADRL的算法相比,考虑了边缘协作的内部模型缓存性能分别提高了15.35%和4.55%。值得注意的是,与传统的缓存算法和没有使用元参数初始化的内部模型相比,MAMRC在面对新任务时表现出更强的平均缓存性能和更强的泛化能力。
Fig. 1. 合作边缘缓存网络。
Fig. 2. 不同请求内容的传输路径。
Fig. 3. 基于元强化学习的MAMRC框架。
Fig. 4. 基于MADRL的内部模型框架。
Fig. 5. 外部模型的工作流程。
Fig. 6. 元参数的更新过程。