《Cache-Aided MEC for IoT: Resource Allocation Using Deep Graph Reinforcement Learning》阅读笔记

Question

MEC使能的IoT能够解决物联网中时延敏感/计算敏感服务的需要

Contribution

  1. 提出cache-aided MEC卸载框架,允许用户将计算任务卸载到边缘服务器上。
  2. 该框架的目标是最小化计算卸载和资源分类配的系统时延,将系统建模为部分可观测马尔可夫过程的多智能体决策问题。
  3. 提出基于深度图卷积强化学习(deep graph convolution reinforcement learning, DGRL)的方法解决问题。算法使用GNN抓取节点之间的相关性并输入到深度Q网络中进行资源分配决策优化。
  4. 对比仿真,基于DGRL的CA-MEC卸载算法性能良好。

Related works

  • Resource Allocation for Communication, Computing, and Caching
referencesmethod
[16]基于深度Q网络的卸载算法
[27]双边匹配和凸优化方法
[28]基于深度学习长短期记忆模型的计算卸载优化算法
[29]基于基因模拟退火的粒子群算法
  • Reinforcement Learning in Resource Management
referencescategorymethod
[18]单智能体基于深度确定策略梯度(DDPG)的计算卸载、资源分配和服务缓存优化方法
[17]基于asynchronous advantage actor–critic (A3C)的3C资源优化方法
[9]基于带有回放记忆的DQN的资源优化算法
[31]基于DRL的联合计算卸载与资源分配优化算法
[32]多智能体基于MADDPG的任务调度与资源分配优化算法
[33]GAT辅助的MARL资源管理算法
[34]基于带有注意力机制的多智能体actor-critic方法
  • Graph Neural Network in Resource Management
referencesmethod
[24]GCN + counterfactual multiagent policy gradient (COMA)-based的通信架构
[39]使用GCN构建基于DRL信道分配算法
[40]使用GNN实现可扩展信道分配算法
[41]无人机中用于增加资源利用率的基于GCN的MARL方法

System model

network architecture

在这里插入图片描述

communication model

用有限马尔可夫信道(FSMC)建模信道资源情况
信道数据传输率:
在这里插入图片描述
在这里插入图片描述
信道容量:
用Z来表示, Z=[Z1e, …, ZMe]

computing model

定义计算状态al,i:表示i号任务是否在第l个MEC服务器上执行。
在这里插入图片描述
本地计算时间Tl,0
在这里插入图片描述
边缘计算总时间Tl,1: 上行卸载传输时间+计算时间+下行返回结果传输时间
在这里插入图片描述

caching model

定义缓存状态xi,j:表示编号为j的任务数据是否缓存到第i个服务器上,若为1表示缓存,否则不缓存。
定义用户请求某个任务的概率ql,k:表示第l个用户请求第k个任务的概率。用户请求某个任务的概率服从Zipf分布:
在这里插入图片描述
一个任务可以被划分成多任务,若一部分的任务数据被缓存到某个边缘服务器上,那么该任务在卸载时只需要卸载部分数据即可, β \beta β是比例系数,代表需要卸载的数据比例,下式为计算卸载的时延:
在这里插入图片描述
此时系统的总时延T可以被表示为:
在这里插入图片描述
其中,先由计算决策变量a确定在本地还是MEC上执行,若在MEC上执行,再由缓存决策变量x决定是否缓存某个任务数据,若不缓存则全部卸载,若缓存则部分卸载。

Problem formulation

Optimization Objective

在这里插入图片描述

J是对用户请求任务的时延求期望
C1是对信道容量的限制
C2是对信道干扰的限制
C3是对计算能力的限制
C4是对缓存能力的限制

problem formulation

每个agent只能观测到系统的部分信息,所以建模为POMDP。

  • State: t 时刻的状态向量为st = {hl,i, ql,k} 一个是信道增益,一个是用户请求任务概率。
  • Observation: oi,t代表网络中节点i在t时刻观测的信息。
  • Action: t 时刻的动作向量为at={pl,i(t), al,i(t)},前者为传输功率决策,后者为计算卸载决策。
  • State transition probability: t 时刻从状态st转移到st+1的概率为p(st+1|st,at)。
  • Reward
    在这里插入图片描述
    文章使用deep Q-learning学习最大化未来累积奖励G的最优策略:
    在这里插入图片描述

DGRL-Based Resource Allocation Algorithm

在这里插入图片描述
上图为多智能体网络架构,分为三部分:

  1. Environment Observation Layer
    M个智能体的环境被建模成一个图,在t 时刻,第i个节点观测到动态环境的信息,生成观测空间O(t)为
    在这里插入图片描述
    其中,Z为每个agent的空闲信道容量,F为每个agent的空闲计算资源,C为每个agent的空闲缓存空间,Q为当前时刻接收到的用户请求,X为上一时刻缓存情况。
    在这里插入图片描述
    该观测值O通过多层感知机MLP被编码成特征向量hi,t:
    在这里插入图片描述
  2. Topological Relationship Learning Layer
    上一步编码的特征向量hi,t作为输入进入图卷积网络中,生成隐藏特征,再经过一层卷积层扩大感受野,学习到其他智能体的信息。在该层中,经过了多头注意力机制抓取网络拓扑信息,获得节点相似度特征向量,再通过MLP将其编码为状态,输入到Q网络中进行策略学习。
    在这里插入图片描述
  3. Deep Q-Network Layer:
    Q值更新函数如下:
    在这里插入图片描述
    优化损失函数如下:其中y代表目标网络
    在这里插入图片描述
    算法流程如下图:
    在这里插入图片描述

Simulation results

  • 参数表
    RL网络参数:
    在这里插入图片描述
    仿真参数:
    在这里插入图片描述

  • 对比方法:
    在这里插入图片描述

  • 结果对比

  1. 不同折扣因子对收敛性能的影响
    在这里插入图片描述
  2. 不同算法的收敛性能
    在这里插入图片描述
  3. 不同算法下任务大小对总时延的影响
    在这里插入图片描述
  4. 不同算法下计算能力大小对总时延的影响
    在这里插入图片描述
  5. 不同算法下存储能力大小对总时延的影响
    在这里插入图片描述
  6. (可扩展分析)固定MEC服务器数量,查看不同数量的用户对总时延的影响
    在这里插入图片描述

7.(可扩展分析)固定用户数量,查看不同数量的MEC server对总时延的影响
在这里插入图片描述

Conclusion

研究了联合缓存、通信、计算资源分配的优化问题,提出CA-MEC卸载框架,建模问题为POMDP并使用DGRL方法求解。

——————————————————————————————————————
参考文献:
[1] D. Wang, Y. Bai, G. Huang, B. Song and F. R. Yu, “Cache-Aided MEC for IoT: Resource Allocation Using Deep Graph Reinforcement Learning,” in IEEE Internet of Things Journal, vol. 10, no. 13, pp. 11486-11496, 1 July1, 2023, doi: 10.1109/JIOT.2023.3244909.

  • 22
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Intelligent Reflecting Surface (IRS) is a new promising technology that can enhance the performance of cognitive radio (CR) networks by improving the spectrum sensing and communication efficiency. In this paper, we propose an IRS-aided spectrum sensing scheme for CR networks. The proposed scheme utilizes the passive reflecting property of IRS to enhance the signal-to-noise ratio (SNR) of the received signal at the CR receiver. The IRS reflects the received signal to enhance the received power and reduce the interference from other users in the network. The proposed scheme also uses machine learning techniques to adaptively adjust the reflecting coefficients of the IRS to maximize the SNR of the received signal. Simulation results show that the proposed scheme outperforms the conventional spectrum sensing scheme in terms of detection probability and false alarm rate. The simulation results also show that the proposed scheme can achieve a higher SNR with fewer samples than the conventional scheme. Moreover, the proposed scheme can improve the communication efficiency of the CR network by reducing the interference from other users in the network. In conclusion, the proposed IRS-aided spectrum sensing scheme can significantly enhance the performance of CR networks. The scheme can improve the spectrum sensing accuracy and communication efficiency by utilizing the passive reflecting property of IRS and the machine learning techniques to adaptively adjust the reflecting coefficients of the IRS. The proposed scheme has great potential in future CR networks to address the increasing demand for spectrum resources.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值