Communication Efficient EdgeAI 边缘智能综述纲要

论文总结 专栏收录该内容
3 篇文章 0 订阅

Communication-EfficientEdgeAI边缘智能综述

背景

通信问题

  • 信道质量变化
  • 网络阻塞
  • 隐私

边缘设备问题

  • 计算能力
  • 存储能力(可能无法存储整个模型)
  • 能量消耗、功率
  • 与基站、边缘服务器的带宽有限

5G

  • eMBB-增强移动宽带
  • URLLC-超高可靠超低时延通信
  • mMTC-海量机器类通信

模型训练

目标-减少通信开销

  • 减少训练通信轮次

    • 解决方法:加速收敛
  • 减少每次通信开销

    • 解决方法:信息压缩技术(稀疏化、量化)
  • 提高通信速率

Edge AI 高效通信算法

零阶方法(Zeroth-Order Methods)

  • 适用于只有函数值可用,但导数信息难以计算获得
  • 量化-将预测的梯度值量化成较小的bits来进行通信
  • 其他提高收敛速度的方法

一阶方法(First-Order Methods)

  • 主要基于梯度下降法

  • 随机梯度下降SGD的分布式实现

  • 瓶颈:设备间通信的梯度交换

    • 解决方法①:加快学习算法的收敛速度来减少通信次数

    • 解决方法②:减少每轮的通信开销

      • 梯度复用Gradient reuse

        • 延迟聚集梯度 lazily aggregated gradient
          (LAG)
      • 梯度量化

        • 量化随机梯度下降QSGD

        • 使用1bit来量化梯度-语音DNN

        • 标量梯度量化在没有聚集节点的情况下是失败的

        • 外推压缩、差分压缩

        • 梯度矢量量化

          • 利用CNN梯度间的相关性
        • 格拉斯曼量化 Grassmannian quantization

          • 可用于分布式学习中的高维梯度压缩
        • 分位数草图

          • 用于梯度压缩的非均匀量化方法
      • 梯度稀疏化

        • 根据准则,传递重要的梯度,忽略低于预定阈值的梯度
        • 使用momentum correction, local gradient clipping, momentum factor masking, and warm-up training来保证精度

二阶方法(Second-order Methods)

  • 在中心节点上保持一个全局逼近的逆海森(Hessian)矩阵

    • 拟牛顿法-Limited-memory Broyden Fletcher
      Goldfarb Shanno (L-BFGS)
  • 在每个设备上局部求解二阶近似问题

    • DANE-分布式拟牛顿法:在每个设备上求解一个具有全局聚集步长的近似局部牛顿系统
    • DiSCO:通过分布式预条件共轭梯度法近似求解全局牛顿系统,在每一轮通信中求解更精确的二阶近似
    • GIANT进一步减少通信轮数

联邦优化(Federated Optimization)

  • 背景:终端算力的发展,使得计算时延比通信时延要小很多;因此可采用额外的本地计算来降低通信成本,即联邦优化

  • 基本思路:基于每个设备上的数据集迭代执行本地训练算法并聚合局部更新模型的框架,即计算局部更新模型参数的平均值–为数据提供了额外的隐私保护,并有可能减少从大量移动设备聚合更新的通信轮数

  • 减少通信轮数

    • CoCoA:在每个通信轮中,每个移动设备执行基于本地数据集的双重优化方法的多个步骤,以换取更少的通信轮,然后计算更新的本地模型的平均值
    • FedAvg(联邦平均):通过在每个设备上使用给定数量的SGD迭代和模型平均来更新本地模型–只适用于每个设备上的数据样本来自相同的分布
    • FedProx算法解决了设备间数据存在统计异质性时,FedAvg算法性能低的问题,增强了对设备间的统计异质性的鲁棒性
  • 减少通信带宽

    • 量化压缩DNN

    • 草图Sketching,用于降维,模型压缩

    • 剪枝,根据某些标准删除连接、过滤器或通道来压缩DNNs

      • [67]对一个预先训练好的网络的不重要的权值进行修剪,并对网络进行再训练,调整剩余连接的权值在不影响精度的情况下将AlexNet的参数数量减少9倍
      • [27]中提出了深度压缩,将DNNs分为三个阶段进行压缩。剪枝,训练量化和霍夫曼编码,从而产生紧凑的DNNs。
      • [70]提出通过凸规划逐层修剪网络,这也表明整体性能下降可以由每一层重构误差的总和来约束
    • 稀疏正则化

      • 通过在训练过程中在损失函数中加入正则化因子来诱导DNNs的稀疏性来实现学习紧凑型DNNs
    • Structural matrix designing

      • 将低秩矩阵分解技术应用于神经网络的权矩阵,以压缩、加速神经网络
      • 利用结构化矩阵,通过快速的矩阵向量积和梯度计算,加快推理和训练的速度

Edge AI 高效通信系统

基于数据分割的边缘训练系统 Data partition based edge training systems

  • 简述:每个边缘设备只有整个数据集的一个子集,训练期间,每个边缘设备持有一个完整AI模型的副本来计算一个本地更新

  • distributed mode-有中心节点

    • 通信瓶颈:聚合来自移动设备和掉队设备的本地更新

    • 通过over-the-air计算快速聚合 Fast aggregation via over-the-air computation

      • 空中计算是利用无线多址信道的信号叠加特性来计算分布式数据函数的一种有效方法,可利用空中计算来提高通信效率
      • [21] 采用空中计算方法进行快速的模型聚合,提高了无线多址信道的通信效率,降低了所需带宽
      • [84] 通信和学习性能之间的两个权衡
      • [85] 提出了一种梯度压缩和随机线性投影的方法,以减小由于信道带宽有限而产生的梯度维数
    • 有限带宽和计算资源的聚合频率控制
      Aggregation frequency control with limited bandwidth and computation resources

    • 基于索引编码和柔性索引编码的数据重组
      Data reshuffling via index coding and pliable index coding

      • 降低数据重组的通信成本
    • 通过编码计算缓解掉队的影响 Straggler mitigation via coded computing

  • decentralized mode-无中心节点

    • gossip communication protocol

      • 随机唤醒一个节点作为中心节点来收集邻居节点的更新或将其本地更新广播给邻居节点
    • 全连接网络

      • 每个设备直接与所有其他设备通信,每个设备维护模型参数的一个本地副本,并计算将发送到所有其他设备的本地梯度–通信开销大

        • 研究点:网络拓扑结构设计,设计稀疏网络结构以加速收敛速度
        • 环形拓扑:每个设备聚集并沿着环传递它的局部梯度,这样所有设备在末端都有一个完整梯度的副本(存在问题:对掉队设备敏感)
        • 逻辑树拓扑结构:减轻掉队设备的影响

基于模型分割的边缘训练系统 Model partition based edge training systems

  • 简述:每个节点持有部分模型参数,协同完成模型训练任务或推理任务,从而使得每个节点仅需较小的存储空间。对于大尺寸的网络模型效果更好。 但是会带来较为沉重的通信开销

  • 注意问题:不同节点间数据的隐私问题

  • 跨节点模型分割,以平衡计算与通信
    Model partition across a large number of nodes to balance computation and communication

    • 具有异构硬件和计算机能力的跨边缘节点的模型划分
    • [114] PipeDream系统,自动确定DNNs的模型划分策略,但是每个设备应该维护多个版本的模型参数,以避免由于异步向后更新的参数过时而导致的优化问题,这阻碍了PipeDream扩展到更大的模型
    • [115] GPipe系统,该系统采用了新颖的batch-splitting and re-materialization技术,能够扩展到大型模型,而几乎不需要额外的通信开销
  • 跨边缘设备与边缘服务器的模型分割,以避免暴露用户隐私 Model partition across the edge device and edge server to avoid the exposure of users’ data

    • 用户可能不愿意将他们的数据暴露给服务提供商(边缘服务器)进行模型培训
    • [116] 提出了一种隐私保护的深度学习体系结构,其中DNN的浅层部署在移动设备上,大部分部署在边缘服务器上。
    • [202] 设计了一个跨多个代理的模型划分方法,即并将其扩展到具有少量标记样本的半监督学习情形。
    • [117] 提出了一种兼顾隐私和性能的分区方法ARDEN。引入差分隐私机制来保证移动设备上输出的隐私。在上传本地输出之前,故意添加噪声以提高DNN的鲁棒性。
  • 垂直分割数据与模型
    Vertical architecture for privacy with vertically partitioned data and model

    • 大多数行业中,数据通常是垂直划分的,在训练过程中,模型也被垂直分割,每个所有者持有一部分模型参数。
    • 隐私问题

基于计算卸载的边缘推理系统 Computation offloading based edge inference systems

  • 基于边缘服务器的推理

    • 设备将数据发送到边缘服务器,适用于计算力弱的物联网设备,瓶颈:数据传输的带宽有限

    • 研究点:减少设备上传的数据量

    • 部分数据传输 Partial data transmission

      • 稀疏化方法对数据进行压缩
      • 只发送关键帧
      • 利用启发式的关键帧选择关键帧
      • 在特定的任务场景及数据中,可降低通信成本
    • 原始数据编码 Raw data encoding

      • 压缩图像,不对图像识别准确性产生巨大影响
      • [129] 使用DNN将高维原始数据编码为一个稀疏的、潜在的表示,以实现有效的传输,这些数据稍后可以通过解码DNN在云中恢复,以最大限度地提高具有解码输入的预训练模型的预测精度,同时实现通信效率高的数据传输。这种新的数据编码思想是实现边缘人工智能系统实时推理的一种很有前途的解决方案。
    • 协同传输 Cooperative downlink transmission

      • 协同传输[203]是一种通过多基站的主动干扰感知协调来提高通信效率的有效方法
      • [130]提出了将每个推理任务卸载到多个边缘服务器上,通过下行传输将输出结果协同传输给移动用户。
      • [131]提出了irs辅助边缘推理系统,并设计了任务选择策略,使上行链路和下行链路的传输功耗以及边缘服务器的计算功耗最小化
  • 设备边缘联合推理Device-Edge Joint Inference

    • 提前退出 Early exit,减少通信工作量

    • 编码传输、剪枝,以减少传输中间数据的通信开销

      • [212]基于深度学习的端到端架构BottleNet++
      • [135]提出了两步修剪方法,第一步减少网络的总计算量,第二步压缩传输的中间数据。
    • [136]将模型被分割到几个边缘设备之间,这些边缘设备协同计算每个设备的推理结果,并采用编码以降低总体计算加通信延迟

通用边缘计算系统 General edge computing systems

  • 类MapReduce分布式计算框架

    • Map阶段

      • 每个节点计算所分配数据的映射函数,生成中间值
    • Shuffle阶段

      • 节点之间进行通信,获得中间值来计算输出函数
    • Reduce阶段

      • 每个节点根据可用的中间值计算分配的输出函数
    • 瓶颈:

      • shuffle阶段的沉重的通信负载
      • 由于不同节点上计算时间的可变性而导致的延迟
    • 解决方法:编码

  • 0
    点赞
  • 0
    评论
  • 3
    收藏
  • 打赏
    打赏
  • 扫一扫,分享海报

©️2022 CSDN 皮肤主题:大白 设计师:CSDN官方博客 返回首页

打赏作者

剑指SSP

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值