Cooperative caching algorithm for mobile edge networks based on multi-agent meta reinforcement lear

基于多智能体元强化学习的移动边缘网络合作缓存算法

边缘缓存通过复用网络内容,减少服务延迟,减轻远程链接的流量压力,并提高体验质量。许多研究使用深度强化学习(DRL)方法制定边缘缓存策略。然而,这些传统的DRL方法存在一些局限,如训练时间长、模型泛化能力差以及需要为新任务重新学习网络参数。为了克服这些挑战,本文提出了一种基于多智能体元强化学习的合作边缘缓存算法(MAMRC),包括内外两个模型。内部模型采用多智能体深度强化学习(MADRL)算法,实现分布式基站(BSs)的合作缓存。它提高了缓存命中率并减少了服务延迟。外部模型使用元学习方法学习元参数并初始化内部模型,增强内部模型的泛化能力,使其能够迅速适应新任务。实验结果表明,与传统的DRL方法和基于MADRL的算法相比,考虑了边缘协作的内部模型缓存性能分别提高了15.35%和4.55%。值得注意的是,与传统的缓存算法和没有使用元参数初始化的内部模型相比,MAMRC在面对新任务时表现出更强的平均缓存性能和更强的泛化能力。

在这里插入图片描述
Fig. 1. 合作边缘缓存网络。

在这里插入图片描述

Fig. 2. 不同请求内容的传输路径。

在这里插入图片描述Fig. 3. 基于元强化学习的MAMRC框架。

在这里插入图片描述
Fig. 4. 基于MADRL的内部模型框架。

在这里插入图片描述
Fig. 5. 外部模型的工作流程。

在这里插入图片描述
Fig. 6. 元参数的更新过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值