深度学习学习笔记-论文研读2-车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法

本人学识浅薄,如有理解不到位的地方还请大佬们指出,相互学习,共同进步

概念引入

强化学习

A3C算法(深度强化学习算法的一种)

马尔可夫决策过程

深度残差网络

边缘计算
边缘计算,是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间,或处于物理实体的顶端。而云端计算,仍然可以访问边缘计算的历史数据。

车联网
车联网的内涵主要指:车辆上的车载设备通过无线通信技术,对信息网络平台中的所有车辆动态信息进行有效利用,在车辆运行中提供不同的功能服务。可以发现,车联网表现出以下几点特征:车联网能够为车与车之间的间距提供保障,降低车辆发生碰撞事故的几率;车联网可以帮助车主实时导航,并通过与其它车辆和网络系统的通信,提高交通运行的效率。

车联网的概念源于物联网,即车辆物联网,是以行驶中的车辆为信息感知对象,借助新一代信息通信技术,实现车与X(即车与车、人、路、服务平台)之间的网络连接,提升车辆整体的智能驾驶水平,为用户提供安全、舒适、智能、高效的驾驶感受与交通服务,同时提高交通运行效率,提升社会交通服务的智能化水平。
车联网通过新一代信息通信技术,实现车与云平台、车与车、车与路、车与人、车内等全方位网络链接,主要实现了“三网融合”,即将车内网、车际网和车载移动互联网进行融合。 [10] 车联网是利用传感技术感知车辆的状态信息,并借助无线通信网络与现代智能信息处理技术实现交通的智能化管理,以及交通信息服务的智能决策和车辆的智能化控制。
1、车与云平台间的通信是指车辆通过卫星无线通信或移动蜂窝等无线通信技术实现与车联网服务平台的信息传输,接受平台下达的控制指令,实时共享车辆数据。
2、车与车间的通信是指车辆与车辆之间实现信息交流与信息共享,包括车辆位置、行驶速度等车辆状态信息,可用于判断道路车流状况。
3、车与路间的通信是指借助地面道路固定通信设施实现车辆与道路间的信息交流,用于监测道路路面状况,引导车辆选择最佳行驶路径。
4、车与人间的通信是指用户可以通过Wi-Fi、蓝牙、蜂窝等无线通信手段与车辆进行信息沟通,使用户能通过对应的移动终端设备监测并控制车辆。
5、车内设备间的通信是指车辆内部各设备间的信息数据传输,用于对设备状态的实时检测与运行控制,建立数字化的车内控制系统。

构成
1、车辆和车载系统。
车辆和车载系统是参与交通的每一辆汽车和车上的各种设备,通过这些传感器设备,车辆不仅可以实时地了解自己的位置、朝向、行驶距离、速度和加速度等车辆信息,还可以通过各种环境传感器感知外界环境的信息,包括温度、湿度、光线、距离等,不仅方便驾驶员及时了解车辆和信息,还可以对外界变化做出及时的反应。此外,这些传感器获取的信息还可以通过无线网络发送给周围的车辆、行人和道路,上传到车联网系统的云计算中心,加强了信息的共享能力。
2、车辆标识系统。
车辆上的若干标志标识和外界的标识识别设备构成了车辆标识系统,其中标志以RFID和图像识别系统为主。
3、路边设备系统。
路边设备系统会沿交通路网设置,一般会安装在交通热点地区、交叉路口或者高危险地区,通过采集通过特定地点的车流量,分析不同拥堵段的信息,给予交通参与者避免拥堵的若干建议。
4、信息通信网络系统。
有了若干信息之后,还需要信息通信系统对各种数据的传输,这是网络链路层的重要组成部分,车联网的通信系统以WIFI、移动网络、无线网络、蓝牙网络为主,车联网的大部分网络需求需要和网络运营商合作,以便和用户的手机随时连接。

体系结构

车联网技术是在交通基础设备日益完善和车辆管理难度不断加大的背景下被提出的,到目前为止仍处于初步的研究探索阶段,但经过多年的发展,当前已基本形成了一套比较稳定的车联网技术体系结构。在车联网体系结构中,主要由三大层次结构组成,按照其层次由高到低分别是应用层、网络层和采集层。
1、应用层
应用层是车联网的最高层次,可以为联网用户提供各种车辆服务业务,从当前最广泛就业的业务内容来看,主要就是由全球定位系统取得车辆的实时位置数据,然后返回给车联网控制中心服务器,经网络层的处理后进入用户的车辆终端设备,终端设备对定位数据进行相应的分析处理后,可以为用户提供各种导航、通信、监控、定位等应用服务。
2、网络层
网络层主要功能是提供透明的信息传输服务,即实现对输入输出的数据的汇总、分析、加工和传输,一般由网络服务器以及WEB服务组成。GPS定位信号及车载传感器信号上传到后台服务中心,由服务器对数据进行统计的管理,为每辆车提供相应的业务,同时可以对数据进行联合分析,形成车与车之间的各种关系,成为局部车联网服务业务,为用户群提供高效、准确、及时的数据服务。
3、采集层
采集层负责数据的采集,它是由各种车载传感器完成的,包括车辆实时运行参数、道路环境参数以及预测参数等等,例如车速、方向、位置、里程、发动机转速、车内温度等等。所有采集到的数据将会上传到后台服务器进行统一的处理与分析,得到用户所需要的业务数据,为车联网提供可靠的数据支持。

本文摘要

在这里插入图片描述

研究背景

据研究,目前全世界商用和民用车辆数之和已经超过了10亿.到2035年,预计这一数字将会达到20亿.汽车保有量的增加,给城市带来了诸如交通拥堵、行车安全等一系列问题.与此同时,互联网的迅速发展使得人们对出行的服务需求更加复杂和多样化,在此背景下,车联网(Internetof Vehicles,IoV)应运而生.基于车用无线通信技术(Vehicle to Everything,V2X),车联网将车辆、路边单元(Road-sideUmt,RSU)以及服务提供商连接为一个有机的网络整体,实现了它们之间的全方位通信打,通过车联网.服务提供商能够获取用户服务需求和道路环境信息,基于这些数据为车载用户提供例如自动驾驶,路径规划、碰撞预警、车费娱乐等多种服务,这些服务能够有效地缓解城市中的各种道路交通问题提高了驾驶安全性和旅途舒适性,用户体验(Quality of ExperienceQoE)也因此得以提高。
一般而言,搭载在车辆上的计算设备的计算能力有限,甚至某些车辆不会搭载计算设备目前最常见的解决方案是将车联网用户的服务需求卸载到云端进行处理司.云平台将用户的服务需求处理完成后,再将结果传回车联网用户,然面,由于云端和用户之间的地理距离较远,将服务卸载到云端进行外理再饭目的讨得律年会产生较长的时,与此回时,车联网中的用户通常处于高速移动的状态,这要求用户服务应在极低的时廷之内完成,如果某一些服务(例如,盛撞预警)的廷迟超过了一定限度,会导致服务质量(QualityofServiceQoS)的下降甚至交通事故的发生边缘计算作为解决此矛质的可行方案之一,通过在RSU上部署边缘服务器(EdgeServerES),将原来集中在云端的计算资源分布到靠近车联网用户一侧间,因此,车联网用户和计算资源的距离得以大大缩短,所获服务的时延也得以降低.有鉴于此,前已有大量案例将边经计算运用在车联网环境中,创如,文献[9]中提出了一种名为HVCHrbrid Ve hicular EdgeCloud)的分布式车联网边缘计算解决方案,利用多路存取网络,该方法实现了路边单元和云端计算资源的有效共享Cui等人为车联网环境设计了一种基于区块链的容器化边缘计算平台 CUTE,该平台能够协助车联网进行资源协调和管理.从而降低用户的服务时。
但是,由于边缘服务器所配备的计算、存储和带宽容源往往是有限的,很难保证将所有车联网用户的服务请求卸载到边缘服务器后,边缘服务器仍不处于讨载状态,一日边续服务器发生过载,服务时还将会升高,用户体验也会相应地降低,因此,某些车联网用户的服务请求仍需在云平台或者本地执行,从而保证边缘服务器资源的使用效率,如何在满足边缘服务器资源受院的约束下,对车联网用户服务的都费目的地进行决管,尽能降低服务时延,是车联网边缘计算中极具挑战性的问题之一,在车联网边线计算环培中,网络环境、计算咨源和用户服务需求等无时无刻不处在变化状态,其中服务卸载的决策过程可以抽象为马尔科夫决策过程(Markov Decision ProcessMDP强化学习(ReinforcementLeaningRL))作为人工智能领域的一部分,是一类通过智能体在和环境的交互过我中不断试错,学习如何得到最大收益的方法,能够有效求解马尔科夫决策问题,此外,近年来深度学习(DeepLearningDL)的快速发展,使得计算机学习数据的高维抽象特征表示成为了可能]深度强化学习(Deep ReinforcenentLeamingDRL将深摩学习和强化学习结合,较好地解决了传统强化学习无法应用于高维度状杰空间和动作空间的问题。进一步提高了强化学习求解问题的能力
目前为止,虽然有一些研究已将深度强化学习麻用干5G车联网动续计算服务知营中,但这出团究存在着两方面的问题。一方面是,某些研究,例如文献[177,仅仅将强化学习作为优化目标函数例如时延,能耗的一种手助,而并未考虑环境的动态事化,真正运用强化学习对边缘计算环境中用户服务进行长期的、动态的服务卸载决策,另一方面,某些研究,例如文献187和文献197虽然利用强化学习解决了服务卸载的动态决策问题,但是设计的服务印载方法同时考虑环境中所有的边缘服务器,而没有考虑边缘服务器的分布式特征,因此当边缘服务器数量较多或者服务需求量较大时,会导致状态容间和动作空间维度爆炸.造成网络参数过多训练运慢甚至难于训练等问题.
总的来说,如何在考虑车联网边缘计算环境动态变化、资源受限的同时,充分利用边缘计算分布式的特点,避免因询缘服务器数量或用户服务需求量软大而产生的维度爆炸问题,从而长期、稳定地为用户提供低时延的服务,是当前车联网边缘计算服务卸载的一大挑战.为此,本文提出了一种基于深度强化学习的车联网边缘计算服务卸载方法.特别地,考虑到边缘计算具有分布式的特征,本方法基于分布式的强化学习算法,从而提高服务卸载的效率,本文的主要贡献包含以下三个方面:
(1)提出了一种“端-边云”协同的5G车联网达缘计算系统模型,该模型中.边缘服务器能够对服务卸载方法进行局部优化,而中心云负责服务卸载方法的全局优化:边缘服务器和中心云协同工作,从而实现分布式的服务卸载优化
(2)将深度时空残差网络(DeepSpatio Temporal Residual NetworkST-ResNet)和异步优势行动者评论家(Asynchronous Advantage ActorCritic.A3C)结合,提出了一种车联网边缘计算环境下分布式的服务卸载方法D-SOAC.该方法协同了深度学习和强化学习,实验证明其能够有效地降低车联网用户长期的平均服务时延,
(3)引人了一种多动作输出的行动者网络,并推导出该网络的参数梯度.解决了传统深度强化学习中,当动作由多个子动作复合而成时,动作空间维度随子动作取值数呈多项式增长,导致行动者网络参数过多、难于训练的问题。
本文第2节介绍和本文相关的研究工作,并对这些研究的成果和存在的问题做一定分析;第3节对5G车联网边缘计算环境中的服务卸载问题建立详细的系统模型:第4节提出分布式的5G车联网边缘计算服务卸载方法D-SOAC;第5节介绍实验的参数设置和实验结果;最后总结全文,指出未来的研究工作方向.。

模型构建

在这里插入图片描述
本节首先提出了一种如图1所示的'“端-边-云”协同的5G车联网边缘计算:系统模型.然后,在此基础上,对系统内的网络通信和用户服务时延建重了数学獏型,最终,将车联网边缘计算中的服务卸载问题抽象为一个整数规划问题。

对应的符号及其含义
在这里插入图片描述

车联网环境中“端-边-云”协同的5G边缘计算系统模型如图1所示.该系统分为车联网用户层、边缘层和云服务层三层.其中,车联网用户层包括了在道路上行驶的所有用户车辆,且每一用户车辆都配备了有限的计算资源.用户的服务需求可以运用本地的计算资源,在安装于本地的车载应用内满足.边缘层包括分散在道路旁的5G边缘计算节点,每个节点包括路边单元以及配备在该路边单元上的边缘服务器两大部分,路边单元用于收集用户服务需求、网络状况等信息,具有一定的覆盖范围,该范围将道路分为一个个不重合的道路段,车联网用户层中的用户也因此被分在唯一的道路段中.特别地,5G边缘计算节点和用户车辆上都安装有5G通信设备。通过5G无线信道,基于毫米波(Millimeter Wave, mmWave)L32]等无线通信技术,用户车辆和相应的边缘计算节点之间形成高带宽的通信连接.在本文中,我们假设每一个路边单元均会配备一个边缘服务器,并在服务器中已经预先安装好了服务提供商提供的各类车载应用,可以满足用户卸载到边缘服务器上的服务需求.同时,用户的服务需求还可卸载到中心云执行,此时边缘计算节点会将服务需求通过有线信道转发到中心云进行计算.中心云所在的层即为云服务层,该层包含了高性能的计算资源,并且同服务提供商直接相连,能够高效、快速地满足用户的服务需求.。

该系统中,时间被离散化为不同的时间段.此外,运用虚拟化技术,各个边缘服务器的计算资源可以被虚拟化为一份份独立的计算资源,分配给用户使用.在每个时间段开始时,路边单元会收集所属道路段的环境信息(例如用户服务需求、网络状况等),发送给对应的边缘服务器.边缘服务器首先根据环境信息对本地的车联网服务需求做出卸载决策.之后,其会对刚刚做出的卸载决策进行评判,学习本地的卸载策略的优化方向.当学习一定次数后,边缘服务器会将其学习到的优化知识发送给中心云.中心云对来自不同道路段的优化知识进行汇总后,可以得出优化后的卸载策略,并将其回传给各个边缘服务器进行实现.因此,卸载策略的优化过程被分配给了多个不同的本地边缘服务器同时进行处理,最后再由中心云进行处理结果的汇总.这一过程满足分布式的特征。

值得注意的是,由于车辆具有移动性,在某一时间段结束时,该车辆可能会移动到和时间段开始时不同的道路段中.我们假设在某一时间段内,用户车辆会与且仅会与时间段开始时用户车辆所在道路段中的5G边缘计算节点连接.也就是说,即使在某一时刻,用户离开了在时间段开始时其所在的道路段 ,但是用户车辆还会和道路段r中的5G边缘计算节点保持连接.因此,服务卸载决策的优化过程会付出“端-边”之间,也就是用户车辆和边缘计算节点之间稳定的通信连接的代价.考虑到5G技术的特性,这一代价是可以被满足的。

网络通信模型

在这里插入图片描述
在这里插入图片描述
服务时延计算模型
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
问题建模

在这里插入图片描述
在这里插入图片描述
基于A3C的车联网服务卸载

总体架构

在这里插入图片描述
在这里插入图片描述
基于ST-RESNET的服务需求量预测
模型结构:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
对应的伪代码(多步用户服务需求量预测)
在这里插入图片描述
基于A3C算法的服务卸载决策

状态(STATE)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
行动/动作/决策/策略(ACTION)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
奖励函数(REWARD)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验思路

对D-SOAC方法进行了收敛性实验,证明了 D-SOAC方法的可行性.在此基础上,针对不同的系统资源状态,我们对D-SOAC进行了详细的性能实验和评估,并和现有的服务卸载方法进行了对比分析.

实验数据
在这里插入图片描述
实验参数
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

D-SOAC方法能够有效降低用户平均服务时延,验证了本文方法的有效性.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丰。。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值