边缘智能:研究进展及挑战
作者:乔德文,郭松涛,何 静,朱永东
首发:《无线电通信技术》
摘 要:近年来, 物联网的普及让数以亿计的移动设备连接到互联网上,在网络边缘产生了海量的数据,使得一种全新的计算范式———边缘计算兴起。同时,得益于深度学习算法和摩尔定律的突破,使得人工智能的发展再一次迎来了高潮。在这一趋势下,将边缘计算与人工智能相结合是必然的,由此产生的新的交叉研究———边缘智能引起了许多学者的广泛关注。
在该综述中,边缘智能被分为基于边缘计算的人工智能和基于人工智能的边缘计算( 即 AI on edge 和 AI for edge)两部分。AI on edge 侧重于研究如何在边缘计算平台上进行人工智能模型的构建,主要包括模型训练和模型推理两部分;AI for edge侧重于借助先进的人工智能技术,为边缘计算中的关键问题提供更优的解决方案,主要包括任务卸载和边缘缓存两部分。该综述从一个广阔的视角对边缘智能的研究进行了归纳总结,为涉足该领域的相关学者提供了一个详细的背景知识。
关键词:物联网;边缘计算;深度学习;人工智能;边缘智能
0.
引言
随着5G技术的发展和物联网(Internet of Things,IoT)的普及,网络边缘的数据由地理上分布广泛的移动终端和IoT设备所创建,这些在网络边缘生成的数据比大型云数据中心生成的数据还要多。另外,根据IDC的预测,到2025年[2],全球物联网产生数据的70%都要在网络边缘处理。同时,人们在日常生活中使用这些智能终端设备时对其服务质量的需求有了进一步的提高[3]。因此,在这种情形下,用传统的云集中式处理模式将无法高效率地处理这些网络边缘数据,也不能满足用户对智能终端高服务质量的需求。具体来说,传统云计算在处理这些网络边缘数据时存在三点不足:①实时性不够;②带宽不足;③能耗较大。因此,为了解决以上问题,更适用的方式是直接在边缘网络侧处理用户需求,这催生了一种全新的计算范式——边缘计算(Edge Computing,EC)[4]。
EC将云服务从网络核心推向更接近物联网设备和数据源的网络边缘,它是一种在终端设备中分析和处理数据的技术。通过这种技术,数据可以在网络边缘进行实时处理,以实现数据流加速的目的。从本质上讲,与传统基于云的计算模式相比,EC使得计算和数据源之间的物理距离更加接近,大大降低了数据传输的时延,缓解了网络带宽的压力,减少了数据通信的能耗,使得用户的服务质量大大提升[5-7] 。
近些年来,得益于摩尔定律的突破,使得人工智能(Artificial Intelligence,AI)的发展再一次迎来了高潮。日常生活中,熟知的 AlphaGo[8] 、无人驾驶汽车[9] 、智慧医疗[10] 等, 都是AI发展的延伸。可以说,我们目前生活在一个 AI蓬勃发展的时代。另外,在算法、算力、大数据等最新进展的推动下,深度学习(Deep Learning,DL)[11] 作为AI领域最耀眼的领域,在计算机视觉、语音识别、自然语言处理等多个领域取得了实质性突破。得益于这些突破,以智能个人助理、个性化购物推荐、智能家电等为代表的一系列智能应用迅速进入了人们的视野,得到了巨大的青睐。现代社会普遍认为这些智能应用极大地丰富了人们的生活方式,提高了社会生产效率。由于AI算法的实现需要大量的计算,当前AI大部分的计算任务都是依靠部署在云及其他大规模计算资源密集的平台上实现的,但考虑到大规模计算资源密集平台与智能终端的物理距离以及网络边缘海量数据的现实,就极大地限制了AI带来的便利。因此,催生了人们将EC与AI进行结合的想法,这也就产生了边缘智能(Edge Intelligence,EI)。
EI并不是将EC和AI进行简单的结合,EI涉及到的主题十分广泛,目前学术界还没有给出一个统一的定义。但是,很多涉足EI的学者都给出了自己对EI的理解,例如,Zhou 等人认为EI的范围不应该仅仅局限于边-端上运行AI算法,而也应该包括在边-云上运行AI算法[12] ;Zhang 等人将EI定义为使边缘设备能够执行AI算法的能力[13] ;李肯立等人将EI 定义为融合网络、计算、存储、应用核心能力的开放平台[14]。
处于初级阶段的EI吸引了学者的广泛关注。他们对EI的进展做了较为全面的研究总结,例如,Zhou 等人从 AI模型的训练、推理以及边-云和端- 边-云协作等方面对 EI进行了较为全面的阐述[12];Chen 等人对网络边缘DL应用的场景以及在网络边缘部署分布式DL算法的常见方法进行了研究[15];Wang 等人从AI 、EC各自的应用场景以及二者相结合的应用场景角度更加全面地介绍了EI[16];也有一些文献从AI驱动的雾计算的角度对 EI进行了研究[17-18]。例如,Peng和 Zhang全面总结了雾-无线电接入网的性能分析和无线电资源分配的最新进展。然而,EI的主题涉及范围广泛,无论是起源还是性质,这些文献都没有完全涵盖。还有许多问题没有得到解决,正因为如此,本文对EI进行分类阐述,以一种简单明了的方式将EI的重点内容呈现出来。具体来说,本文将EI分为基于EC的 AI(AI on edge)和基于AI 的EC(AI for edge)。AI on edge可以理解为在边缘环境中部署AI算法;AI for edge可以理解为利用AI算法解决EC中的优化问题,现有关于EI的研究都可以大致分为这两大类。
1.
EC和AI的关系
AI和EC的结合是必然,它们之间存在着一种互动关系。AI为EC提供解决问题的技术和方案,而EC为AI提供释放潜力的平台。
1.1 AI为EC提供技术和方法
EC是一种分布式计算范式,通过构建软件定义的网络来分散数据,提供具有鲁棒性和弹性的服务。EC在不同的层次上面临资源分配问题,如CPU周期频率、访问权限、射频、带宽等。因此,对各种功能强大的优化算法提出了很高的要求,以提高系统的效率。从本质上讲,EC将真实场景中的优化问题进行建模,然后用梯度下降方法迭代地寻找渐近最优 解。无论是统计学习方法还是DL方法都可以为边缘提供帮助。此外,包括多智能体学习、深度Q-网络(Deep Q-Network,DQN)在内的强化学习在边缘资源分配问题中发挥着越来越重要的作用。
1.2 EC为AI提供场景和平台
IOT设备的激增使万物互联成为现实。除了云数据中心外,更多的数据是由边缘网络设备创建的。更多的应用场景,如自动驾驶、智能家居、智慧城市等,都可以极大地促进AI从理论到实践的实现。此外,通信质量高、计算能力要求低的AI 应用可以从云迁移到边缘,可以说,EC为AI提供了一个功能丰富的平台,得以让AI尽情地释放其内在潜力。
2.
AI on edge
在这一部分,本文将 AI on edge的研究工作分为模型训练和模型推理两部分。其中模型训练部分重点介绍目前流行的联邦学习(Federated Learning,FL)在边缘环境中的一些研究工作;在模型推理部分,本文主要介绍模型的优化、分割以及共享三方面的工作。最后,本文对上述两部分的工作做相应的总结分析。
2.1 模型训练
在边缘环境中,本文将在边缘侧进行的AI模型训练称之为“AI on edge ”。这种训练需要大量资源来进行数据参数的交换更新,但往往存在着数据隐私暴露的风险。幸运的是,FL作为一种新兴的分布式学习架构,能够很好地解决AI on edge存在的一些问题。对于EC中能力多样、网络条件有限的设备,FL可以在处理Non⁃IID训练数据时保护隐私,在高效通信、资源优化和安全等方面具有良好的扩展性。表1中列出了一些关于FL的工作。
丨2.1.1 标准FL
FL[19]作为端-边-云之间的一种实用的深度学习训练机制而出现。在 FL的框架下,移动设备被视为执行本地训练的客户端。同时,云中的终端设备、边缘节点和服务器在一定条件下也可以等价地视为FL 中的客户端。下面讨论基于边缘计算的联邦学习基本原理。FL不需要上传数据到中心云进行训练,边缘设备只需要使用本地数据训练本地DL模型,然后上传更新后的DL模型参数。在标准FL中有两个角色:具有本地数据的客户端和负责模型聚合的聚合服务器。整个FL的过程如下:① 请求一组客户端从服务器下载初始化全局DL模型参数;② 用本地数据在下载的全局模型参数上训练本地模型;③ 将更新后的本地模型参数上传到服务 器,接着对本地模型参数进行加权聚合得到全局模 型参数。如图 1所示,根据FL中的两个角色和EC三个层次之间的关系,有3种可行的训练FL的解决 方案:① 端-边合作:边缘节点代替云作为服务器, 端侧作为客户端;② 边-云合作:边侧作为客户端参与 FL,而云作为聚合服务器;③ 端-边-云合作:端边两侧作为客户端参与FL,而云作为聚合服务器,这种方式可以结合上述两种方式的优点。
丨2.1.2 高效通信FL
在FL训练过程中,不用将原始数据上传到服务器,可以说在很大程度上降低了通信代价。但如果本地训练的DL模型足够大,从边缘设备向中心 服务器上传模型参数也会消耗大量的通信资源。为了解决这一问题,有学者提出让FL边缘设备定期地(不是持续地)与中央服务器通信,以寻求关于全局DL模型的共识[20]。此外,FL框架下,DL模型参数的压缩和学习策略的创新也能实现FL高效通信的目的。例如,在文献[21-22]中,提出了一种稀疏三元压缩方法,实现客户端和服务器之间参数传输的上下游通信压缩,达到降低通信代价的目的;文献[23]提出了一种异步学习策略,该学习策略将不同层次的深度神经网络分为浅层和深层,深层的参数更新频率低于浅层。此外,在服务器上引入时间加权聚合策略,利用之前训练的局部模型,从而提高中心模型的准确性和收敛性。
另外,与云相比,边缘设备的计算资源非常稀缺。提高通信效率还需要考虑其他挑战:① 计算资源在边缘设备上是异构的和有限的;② 边缘设备上 的训练数据可能是Non-IID的。基于此,文献[24]推导出的Non-IID分布式学习的收敛界,可以保证在理论上优化所有参与设备在给定资源预算下的聚集频率。
丨2.1.3 资源优化FL
当FL将相同的神经网络模型部署到异构的边缘设备时,计算能力较弱的设备可能会极大地延迟全局模型的聚合。虽然将掉队者从协作中剔除可以 在一定程度上缓解延迟问题,但掉队者可能会保留从非相同数据集学习到的独特和关键信息,直接剔除会损害整体协作性能。因此,文献[25]中提出了异构感知FL框架Helios 来解决设备能力异构的问题。Helios识别单个设备的异构训练能力,因此预期的神经网络模型训练量与协作训练速度有关。针对掉队设备,提出了一种软训练方法,通过旋转神经元训练方法将原始相同训练模型动态压缩到期望体积。通过广泛的算法分析和优化方案,可以在保持局部训练和联邦协作收敛的同时