《Joint Caching and Transmission in the Mobile Edge Network: An Multi-Agent Learning Approach》阅读笔记

Question

现存的大部分研究都是聚焦缓存或者传输的,没有联合优化,本文提出方法解决数据缓存和传输联合优化问题

Contributions

  1. 建模一个多智能体学习的方法去解决边缘物联网中缓存和传输联合优化问题
  2. 该方法包括缓存优化和传输优化,目的是最小化传输时延。
  3. MADDPG(multi-agent deep deterministic policy gradient)被用于缓存优化,将不流行的数据剔除,更换流行的数据。
  4. MABLA(multi-agent Bayesian learning automaton)被用于传输优化,在单点传输和多点传输之间学习更加合适的策略。
  5. 与传统的缓存策略和传输策略对比,证明方法的有效性。

System model

  • MEC网络:包含一个云中心c和E个边缘服务器
  • 用户:有U个用户,用户位置被建模为独立泊松点过程(independent poisson point process),用户请求文件的分布被建模为齐夫分布(Zipf)
  • 文件:有F种文件,每个文件的大小为sf
  • 边缘服务器的存储能力:最多存储F1个文件,F1 < F(意味着有可能在存储满后发生替换),存储空间C = F1 * sf
  • 迭代次数:T,每轮迭代包含MARL的N1t步和MABLA的N2t步两部分。
  • 假定用户每一步都请求一个文件。
  • 信道增益:,g是高斯随机变量,d是距离,路径损耗因子为 α \alpha α

Cache Model

缓存决策变量x定义为:1表示服务器e缓存了文件f
在这里插入图片描述

Communication Model

在MEC网络中,MEC的密集部署导致一些user被多个MEC服务器所服务,用户为提高QoS会采取混合传输策略(单传或多传)。
用户可达变量y定义为:1表示用户u能够访问到服务器e
在这里插入图片描述
请求变量z定义为:
zu,f = {0, 1},1表示用户请求了文件f

单点传输
当用户u需要请求文件时,向覆盖自己的边缘服务器e请求文件,如果能够请求到,那么从服务器e到用户u的可达下行链路数据率为:
在这里插入图片描述

多点传输
当用户u需要请求文件时,多个服务器响应传输, 那么用户u的下行链路数据率为:
在这里插入图片描述

Delay Model

传输时延 = 边缘服务器到用户的传输时延 + 云中心到用户的传输时延
在这里插入图片描述
在这里插入图片描述

Multi-Agent Caching and Transmission

目标:最小化总的传输时延
每轮迭代中,缓存网络根据用户偏好学习缓存策略来优化缓存变量x,传输网络通过选择最优传输模式优化用户可达变量y。
问题被建模为:
在这里插入图片描述

解决方案:使用多智能体学习
架构如下:
在这里插入图片描述
包括两部分:caching network 和transmission network
caching network基于多智能体学习预测和存储用户感兴趣的文件,网络的输入为请求文件和用户接入信息,输出为缓存决策x,每个边缘服务器作为agent学习缓存策略。
transmission network基于缓存策略通过MABLA学习传输策略,用户会根据呈Beta分布的状态信息做出用户接入决策y。

MARL-based Edge Caching

在caching network中,每个server都是一个agent,在每一步中它们之间都是被环境互相影响的。每个智能体多不能获得全部的环境状态信息,只能分布式做出缓存决策。因此缓存问题可以被建模成马尔可夫博弈。定义元组{S, A, P, R, γ \gamma γ},S代表状态空间,A为联合动作空间,P代表状态动作转移函数,R为奖励函数, γ \gamma γ为折扣因子。
State: 环境状态包含在step t时,用户请求文件和服务器缓存文件,定义为:
在这里插入图片描述
其中,Fre(t) = {f1e(t), …, fUee(t)}, 表示服务器e服务范围内的所有users的请求情况
Fce(t) = {f1e(t), …, fF1e(t)},表示服务器e缓存的文件

Observation: 假定每个智能体都不能获得全部的环境状态信息。边缘服务器e只能观测到它覆盖范围内用户的请求文件情况。定义为:
在这里插入图片描述

Action:假定智能体的cache都是满的,缓存的文件索引为{1, …, F1},每个智能体都要挑选一个文件从中删除,替换成其他的文件。那么将动作定义为:
在这里插入图片描述
相当于构建了一个表格,行为server缓存的文件索引,列为要替换的文件索引。有以下更新定义:
在这里插入图片描述
fce(t)代表是否需要更新服务器中的缓存文件。当a(t)=0时,说明请求的文件在缓存中,不进行替换。
fde(t)代表需要删除的文件在缓存列表中的索引,fae(t)代表替换文件在文件库中的索引。若请求文件不在缓存中,那么依据上式确定需要删除的文件进行替换。

Reward: 智能体的目标是找到一个缓存策略,根据被驱逐和替换的缓存文件使得传输时延最小,因此奖励函数定义为:
在这里插入图片描述
疑问:这里的奖励函数定义为边缘服务器与用户之间传输时延最小,若边缘服务器只缓存一个文件岂不是此时的传输时延最小,r最大吗?是否应修改奖励函数为总传输时延的倒数?

Transition:定义了t时刻从状态s到状态s+1,采取动作a时的规则。比如如果在t时刻服务器e中缓存的文件为{1, 2, 3},agent采取的动作为删除文件1替换为文件4,那么t+1时刻服务器e中缓存的文件为{4, 2, 3}。

Discount factor: γ \gamma γ

在caching network中使用MADDPG方法来学习缓存策略。MADDPG基于actor-critic模型,在actor network中定义多智能体的策略,定义期望奖励的梯度,定义损失函数。
在这里插入图片描述

MABLA-Based Transmission

基于caching network输出的缓存决策,transmission network来做用户接入决策。被多个server覆盖的用户需要选择一个传输模式,ST或JT。JT表示请求文件能够被多个server传输,ST表示请求文件只被一个server传输。
MABLA为多智能体的贝叶斯自动机,两个arm分别为ST和JT。MABLA的核心为能够生成每个动作奖励概率的贝叶斯估计的Beta分布。
用户选择ST则选择arm0,选择JT则选择arm1。Beta分布的概率密度函数为:
在这里插入图片描述
用户u在step t 的状态为:
在这里插入图片描述
用户u的动作定义为:
在这里插入图片描述
其中Xiu(t)是从Beta( α \alpha αiu, β \beta βiu)中采样的。采取动作后,Beta帆布根据奖励或惩罚更新参数:
在这里插入图片描述

Analyzes the Proposed Multi-Agent Approach

在这里插入图片描述

Simulation

边缘服务器的个数E3
每个服务器的缓存容量10MB
每个文件大小1MB
用户数量20(服从λ=200/km^2的PPP)
Zipf分布的 skewness1.2
系统峰值功率P39.953W
服务器到用户,云中心到用户的带宽4.5MHz
文件数量F50
云中心到用户的距离d3Km
路径损失因子α4
MARL的参数表如下:

在这里插入图片描述
结果对比:

  1. 在缓存策略上,与LFU, LRU, FIO, DDPG进行对比,迭代次数增加后,MADDPG性能最好

在这里插入图片描述

  1. 在传输策略上,与单点传输、多点传输进行对比,迭代次数增加后平稳手来你,性能最好
    在这里插入图片描述

————————————————————————————————————————
参考文献:
【1】Q. Mi, N. Yang, H. Zhang, H. Zhang and J. Wang, “Joint Caching and Transmission in the Mobile Edge Network: An Multi-Agent Learning Approach,” 2021 IEEE Global Communications Conference (GLOBECOM), Madrid, Spain, 2021, pp. 1-6, doi: 10.1109/GLOBECOM46510.2021.9685590.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值