文章导读
CoEdge系统的构思基于边缘计算的发展,这一分布式计算范式将服务从云端推向网络边缘,以支持各种物联网应用,如智能交通和自动驾驶。随着通信技术的进步,出现了新的协作边缘系统,多个边缘节点可以通过本地点对点连接实现协作,而无需依赖强大的中心化互联网基础设施。这些系统在拓展性方面具有明显优势,适合广泛的地理部署,但也面临分布式工作负载处理、实时要求、异构环境兼容等挑战。CoEdge提出了一个分层的深度学习任务调度框架,通过任务调度与批处理机制来优化节点资源利用,此外,该系统还设计了GPU并行容器化,以解决任务隔离与GPU共享的难题。实验结果表明,CoEdge在大学校园中的智慧灯杆测试环境中显著降低了任务超时率。
1.研究背景和相关工作
在深度学习任务卸载方面,现有研究已开发了多种方法来缓解边缘设备在处理深度神经网络(DNN)任务时面临的资源限制问题。典型方案包括将计算密集型任务卸载到云端或其他边缘设备。例如,Neurosurgeon系统通过预测每层DNN模型的延迟和功耗,自动在层级粒度上划分任务,以实现高效的任务卸载。EdgeML采用强化学习算法,根据实时通信带宽的动态变化来自动调整任务分区点,从而优化卸载效率。此外,ENGINE系统采用贪心策略,通过决定哪些任务本地执行、哪些任务发送至云端来最小化能耗。然而,这些方法主要面向单一客户端与服务器间的通信,缺乏对多节点分布式深度学习任务的支持,因此无法在多节点之间实现协同优化。针对边缘设备之间的工作负载平衡,有研究提出了多种优化方法。例如,某些研究通过建立整数线性规划模型,优化用户请求在边缘-云架构下的整体响应时间,并将边缘设备的数据全部卸载至云端。然而,这种方法会导致边缘到云端通信延迟较高,无法充分利用边缘设备的计算资源。Dedas系统提出了一种在线的任务调度和任务分派机制,在边缘设备无法满足任务的实时需求时将任务卸载到云端,假设部署有资源丰富的服务器以接近数据源和终端设备。然而,在协作边缘系统中,由于边缘节点无法始终依赖资源丰富的服务器,并且云卸载可能会导致隐私泄露,因此该方法的适用性有限。对于在边缘设备上并发执行深度学习任务的研究,已有一些工作重点关注实时性能优化。DART系统通过基于流水线的数据并行架构,提升了实时DNN推理请求的响应效率。RT-mDL则通过联合模型缩放和调度策略,优化了边缘平台上多种实时/准确性需求下的DNN任务执行效率。BlastNet提出了跨处理器的动态调度方案,使DNN模型推理在异构CPU-GPU平台上实现高效推理。然而,这些方法的侧重点在于单一边缘设备上的实时并发任务优化,未考虑其他边缘节点协同推理的需求。此外,当前研究未能有效解决在共享边缘平台上部署多个DNN模型时的兼容性问题。多个任务的前/后处理可能需要不同版本的依赖包,如NumPy、SciPy等,因此典型做法是将DL任务分别封装在不同容器中。然而,这种容器化技术在边缘平台上的直接应用存在限制,尤其是多个容器无法同时访问同一边缘设备的GPU资源。最近的一项研究将容器划分为一个共享容器和多个独立容器,以支持多边缘应用的容器化,但该方法并不适用于GPU加速平台上的并发DL任务。
2.成果概述
CoEdge 系统适用于多个分布式实时应用场景,包括智能交通基础设施、自动驾驶、智能港口和工厂等数据密集型任务。例如,在智能道路基础设施中,CoEdge 系统通过多个配备了传感器的智能灯杆进行协作,实现实时的交通监控和基础设施支持的自动驾驶。每个灯杆通常配备热成像相机、毫米波雷达和 LiDAR 等多种传感器,但这些边缘节点的计算和功率受限,使得在不进行重大升级的情况下,仅能提供数十瓦的固定电源供给,这在大规模边缘系统中尤为常见。此类智能灯杆应用要求分布式协作,以在有限的资源条件下满足实时深度学习任务的执行需求。

具体来说有如下要求:
- 实时与并发 DNN 执行
在智能灯杆的支持下,许多应用需要严格的时间约束,例如车辆跟踪要求在数秒内完成检测和通信。而在自动驾驶中,灯杆节点可能需要实时处理传感器数据并将结果发送至车辆。此外,由于灯杆通常作为共享基础设施,单个节点可能需要同时运行多个深度神经网络模型来执行不同任务。有限的设备资源和严格的实时需求构成了设计协作边缘系统的主要挑战。
- 地理分布的异构工作负载
由于传感器和路况的差异性,不同灯杆的服务和工作负载分布往往不均衡。热成像相机、毫米波雷达和 LiDAR 的传感范围差异较大,从 10 米到 500 米不等,导致传感器的部署方式会因道路和交通情况以及预算而变化。不同的节点在数据和计算负载方面呈现高度动态性,进一步增加了边缘节点协同计算的复杂性。
- 多样化的开发和运行环境
作为共享基础设施ÿ