Distributed Deep Learning at the Edge-A Novel Proactive and Cooperative Caching Framework for Mobile

最新推荐文章于 2022-07-04 19:39:17 发布

Sher_lyj

最新推荐文章于 2022-07-04 19:39:17 发布

阅读量346

点赞数

分类专栏：边缘计算

本文链接：https://blog.csdn.net/qq_42187809/article/details/106090299

版权

边缘计算专栏收录该内容

3 篇文章 1 订阅

订阅专栏

边缘分布式深度学习：针对移动边缘网络的新型主动协作缓存框架

摘要

我们提出了两种新颖的主动协作式缓存方法，它们使用深度学习（DL）来预测移动边缘缓存网络中用户的内容需求。在第一种方法中，内容服务器（CS）负责从网络中的所有移动边缘节点（MENs）收集信息，然后执行所提出的DL算法来预测整个网络的内容需求。但是，由于移动边缘节点必须与内容服务器共享其本地用户的数据，因此这种集中式方法可能会公开私人信息。因此，在第二种方法中，我们提出了一种新颖的基于分布式深度学习（DDL）的框架。分布式深度学习允许网络中的移动边缘节点合作并交换信息，以减少内容需求预测的错误，而不会泄露移动用户的私人信息。通过仿真结果，我们表明，与其他机器学习算法相比，我们提出的方法可以通过将均方根误差（RMSE）降低多达33.7％来提高准确性，并将服务延迟减少47.4％。

均方根查 root mean squared error (RMSE)

均方根差的数值常为模型预测的量或是被观察到的估计量。

方均根偏移代表预测的值和观察到的值之差的样本标准差

https://baike.baidu.com/item/均方根差/10486196?fr=aladdin

介绍

移动边缘缓存（MEC）旨在通过移动边缘节点（MENs）==[1]来向移动用户发布更流行的内容，以减少移动用户的服务延迟。为了有效地缓存流行的内容，主动缓存[2]==已经成为提高缓存命中率并降低MEC服务提供商的运营和服务成本最有效方法之一[3]。

在[4]中，研究了使用奇异值分解（SVD）的基于学习的主动缓存。在这份材料中，首先从基站收集数据，然后在大数据平台中对其进行训练。但是，SVD将所有缺失值设置为未定义，从而导致预测不佳，尤其是在数据集极为稀疏的情况下。此外，SVD会观察到近似的元素等级，因此可能会产生负数，从而无法提供有关用户需求的信息。为了解决这个问题，在文献[5]中，作者采用非负矩阵分解（NMF）来基于对移动用户社交联系的隐式反馈来预测移动用户的内容请求概率。因此，NMF将基于加法零件的表示形式与非负元素一起应用，以增强元素的可解释性。但是，NMF是仅考虑两因素相关性（即，用户-内容关系）而不学习多级相关性的线性模型。鉴于此，深度学习似乎是依靠深度神经网络（DNN）来学习多层处理层的合适解决方案。DNN的每一层都提供了复杂的隐藏特征的非线性变换，以获取移动用户和内容需求之间的关联性[6]。

在这份材料中，我们介绍了两种使用深度学习（DL）算法的主动协作缓存方法，以提高MEC网络的内容需求预测的准确性，并根据最新信息处理动态用户的需求。在第一种方法中，我们使用内容服务器（CS）作为集中节点开发模型，以从所有MENs收集信息。然后，我们使用DL预测整个网络的需求，当MEN具有有限的计算资源且无法自行执行DL算法时，此方法特别有用。然而，这种方法可能引起对信息隐私和通信开销的关注。为了解决这些问题，我们提出了一种使用基于分布式深度学习（DDL）的框架的新颖方法。在这种框架下，CS仅需要从MENs收集训练过的模型并相应地更新全局模型[7]。之后，全局模型将被发送回MENs，以进行进一步更新。通过仿真结果，我们证明，与MENs上的其他主动缓存算法相比，这两种方法均可将预测准确性提高至33.7％，并将服务延迟减少47.4％。

奇异值分解SVD

https://www.cnblogs.com/endlesscoding/p/10033527.html

非负矩阵分解NMF

https://blog.csdn.net/pipisorry/article/details/52098864

系统模型

A.网络架构

所建议的网络架构如图1所示。移动用户在其服务区域内连接到MENs。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z5XNyjy2-1589331737220)(…\2019-Distributed Deep Learning\1588156167864.png)]

通过使用无线（如蜂窝网络）或有线连接，所有MENs也通过回程链路连接到CS。当用户向MEN发送内容请求时，如果内容存储在MEN本地，则内容将立即发送给用户。否则，MEN从CS或其直接连接的MEN之一下载内容，并将其发送给发出请求的用户。

MENs移动边缘节点： $\mathcal {N} = \{1,...,n,...,N\}$

网络中的移动用户： $\mathcal {U}=\{1,...,u,...,U\}$

移动用户总数：U

每个MEN-n都配备有一个有限的存储容量== $S_n$ ==，可以根据缓存框架的决定在本地缓存受欢迎的内容。

每个MEN-n都有一个容器== $\mu _n$ ==来监视访问和下载过MEN-n内容的用户们，其中

$\mu_n = [\mu^1_n, ...,\mu^u_n,...,\mu^U_n,]$ ，== $\mu _n^u$ ==为二进制变量

== $\mu _n^u=1$ 表示用户u访问过MEN-n并下载内容， $\mu _n^u=0$ ==表示其他情况

$U_n = \sum^U_{u = 1}\mu ^u_n$ :获得在MEN-n上访问过并下载内容的用户总数。

$\mathcal{I} = \{1，...，i，...，I\}$ :为内容集合。

回程链路

回程链路（backhaul）是指从接入网络或者小区站点（cellsite）到交换中心的连接。

交换中心连接至骨干网络，而骨干网络连接至核心网络。因而，回程链路网络是任何电信网络结构的中间层，它位于接入网络和骨干网络之间，为这两个网络提供了重要连接。举例来说，用户在网吧用Wi-Fi上网时，Wi-Fi设备必须连回ISP（InternetService Provider）端，而此链接任务便可由WiMAX担任。这项功能有助于服务提供商降低回程传输的成本。

B.主动合作缓存机制

为了缓存流行的内容，每个MEN-n都从其覆盖区域的移动用户那里收集信息，并建立一个动态日志文件，即== $X_n$ ==，在每个列和行中分别包含一个带有用户ID和请求内容ID的表。

表中元素== $f^i_{\mu^u_n}=1$ ==表示用户u在MEN-n下载内容i的次数，即受欢迎程度

如果用户u访问MEN-n并下载内容i，则 $f^i_{\mu^u_n}=1$ 的值将增加1。

这些信息将在每个MEN的日志文件中被本地捕获和更新。

对于第一种方法（即在CS中使用DL），CS协同收集来自MENs的== $X_n$ ， $\forall n\in N$ ，然后将它们垂直连接到数据集 $X_{cs}$ 中，其中用户u在内容i上的**受欢迎程度 $f^i_u$ 。这样，MENs可以共享模型信息**，以提高整个网络的预测准确性。我们使用 $X_{cs}$ 预测内容需求，然后在CS处生成数据集 $\hat Y_{cs}$ ，其中包含**预测的流行度因子 $\hat f^i_u$ 。然后，将此 $\hat Y_{cs}$ 发送回MENs，以进行内容放置决策**。具体来说，每个MEN-n都获得作为内容i的预测流行度因子集合 $\hat f^i_u = \sum_{u\in U}\hat f^i_u$ ==的。

在使用DDL的第二种方法中，每个MEN-n都可以使用== $X_n$ 本地预测需求。然后，CS仅需要从MENs 收集训练后的模型并合作更新全局模型（在第IV节中进行说明），并创建 $\hat Y_n$ ，其中包含预测的流行度因子 $\hat f^i_{\mu^u_n}=1$ 。为了执行内容放置决定，每个MEN-n将内容i的预测流行度因子汇总为 $\hat f^i_n = \sum_{u\in U}\hat f^i_{\mu^u_n=1}$ ==。

基于第一种和第二种方法的== $\hat f^i_n$ ==，我们可以在MEN-n中按降序获得最大的数量的 $\hat f^i_n$ 。特别是，我们选择 $\hat f^i_n$ 的top-R为内容，这些内容很可能缓存在MEN-n处。

基于DL的主动合作缓存

在这种方法中，CS需要通过将== $X_{cs}$ 划分为较小的子集（称为**mini-batch $\beta$ **）来通过DNN学习 $X_{cs}$ 。对于DNN，每层 $l$ 产生一个输出矩阵包含**全局权重矩阵 $W_l$ **来控制层的每个神经元对彼此的影响力，**全局偏差向量 $v_l$ ==**来拟合数据集，如下所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qzn9uef3-1589331737225)(…\2019-Distributed Deep Learning\1588213155931.png)]

$X^l_{cs}$ :CS中 $l$ 层的输入矩阵（如训练数据集），且 $X^1_{cs} = X_{cs}$

$\alpha _{cs}$ :ReLU激活函数

由于DNN包含包括隐藏层在内的很多层，我们可以表示== $X^{l+1}_{cs} = Y^l_{cs}$ ==

为了防止过度拟合问题和泛化误差[8]，我们在最后一个隐藏层之后增加了一个dropout层 $l_{drop}$ 。该附加层通过fraction rate $r$ 随机丢弃输入层 $X^{l_{drop}}_{cs}$ ，因此其余输入元素按== $\frac{1}{1-r}$ 缩放。然后，输出层 $L$ 将生成 $Y^l_{cs}$ ，用于为mini-batch iteration $\tau$ ==查找预测损失。

特别是，如果我们考虑== $\omega =(W，v)$ ，其中 $W = [W_1, ..., W_l,...,W_L]$ 和 $v = [v_1,...,v_l,...,[v_L]$ ，作为所有DNN层的全局模型，CS中每一个 $\tau$ 的预测损失 $p(\omega_\tau)$ ==由**均方误差（MSE）**表示

$p(\omega_\tau) = \frac{1}{\beta}\sum^{\beta}_{u=1}p_u(\omega_\tau)$

其中== $p_u(\omega_\tau)=(y^u_{cs}-x^u_{cs})^2$ ==

== $x^u_{cs}$ 和 $y^u_{cs}$ 分别是矩阵 $X^1_{cs}$ 和 $Y^L_{cs}$ ==的元素

然后，我们可以通过== $G_{\tau} = \bigtriangledown w_{\tau} = \frac{\partial p(w_{\tau})}{\partial w_{\tau}}$ ==计算使用DL的全局梯度。

在获得== $G_{\tau}$ 之后，CS以最小化预测损失函数，即 $\min \limits _w p(\omega)$ 来更新全局模型 $w_{\tau}$ ==。因此，我们采用自适应学习率优化器Adam来为模型提供快速收敛和强大的鲁棒性**[9]。

$\eta _\tau$ : $G_{\tau}$ 的指数移动平均值（以估计均值）

$\delta _\tau$ : $G_{\tau}$ 的平方，以预测 $\tau$ 的方差

然后，== $\eta _{\tau+1}$ 和 $\delta_{\tau+1}$ ==的更新规则可以表示为：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pXvUMgHj-1589331737229)(…\2019-Distributed Deep Learning\1588221124725.png)]

$\gamma^\tau_\eta\in[0,1)$ ,== $\gamma^\tau_\eta$ 表示在每个最小batch迭代 $\tau$ 中 $\eta_\tau$ ==的指数衰减步长

$\gamma^\tau_\delta\in[0,1)$ ,== $\gamma^\tau_\delta$ 表示在每个最小batch迭代 $\tau$ 中 $\delta_\tau$ ==的指数衰减步长

为了更新全局模型，我们还考虑学习步长== $\lambda$ ，以决定在每个最小batch迭代 $\tau$ ==处更新全局模型的速度。

针对== $\lambda$ 的更新规则遵循表达式 $\lambda_{\tau+1} = \frac{\sqrt{1-\gamma^{\tau+1}_\delta}}{1-\gamma^{\tau+1}_\eta}$ ==

然后，下一个== $\tau+1$ 的全局模型 $\omega_{\tau+1}$ ==被更新：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qwmKRNnA-1589331737233)(…\2019-Distributed Deep Learning\1588230228041.png)]

== $\epsilon$ 为常数，避免当 $\sqrt{\delta_{\tau+1}}$ ==几乎为0时，除数为0的情况

对于这种方法，使用== $\omega_{\tau+1}$ 来学习CS中下一个 $\tau+1$ 的数据集。重复相同的过程，直到观察到 $X_{cs}$ 的每个样本u都在epoch time t期间被观测到。然后，当预测损失收敛或达到特定时期数T时，处理终止。在这种情况下，我们可以获得最终的全局模型 $\omega^*$ ，来预测训练集 $X_{cs}$ 的预测值 $\hat Y_{cs}$ 和使用了等式(1)的新数据集 $\hat X_{cs}$ ==。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LwwdaeLM-1589331737236)(…\2019-Distributed Deep Learning\1588213155931.png)]

图2中显示了使用DL进行主动协作缓存的算法，其中在CS处执行了如图2所示的**虚线框（a）**内的处理。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xD51VQrf-1589331737239)(…\2019-Distributed Deep Learning\1588233613243.png)]

EMA 指数移动平均值

EMA（Exponential Moving Average）是指数移动平均值。也叫 EXPMA 指标，它也是一种趋向类指标，指数移动平均值是以指数式递减加权的移动平均。

https://baike.baidu.com/item/EMA/12646151?fr=aladdin

Adam optimizer

https://www.jianshu.com/p/aebcaf8af76e

batch iteration epoch

batch：整个训练数据集。

Mini-batch：在学习算法中，执行一次算法迭代步骤所用到的训练样本数据。通常是整个训练数据集的一小部分。

iteration：执行一次算法迭代，称为一次iteration。对于神经网络算法而言，一次前向传播与梯度的一次反向传递过程，称为一次iteration。

epoch：算法迭代过程中，每一批次数据Mini-batch迭代一次算法，训练数据集中所有数据都进行过算法迭代后，称为一次epoch。

基于D(distributed)DL的主动合作缓存

在这种方法中，每个MEN分布式实施DL技术以从本地数据集== $X_n$ 中学习。然后将 $X_n$ 分为具有最小批处理 $\frac{\beta}{N}$ ==的较小子集。对于DNN，每个MEN-n都会生成输出矩阵

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HyPvneUf-1589331737241)(…\2019-Distributed Deep Learning\1588234705698.png)]

$X^l_n$ :MEN-n中 $l$ 层的输入矩阵，且 $X^1_n = X_n$

$\alpha _n$ :ReLU激活函数

由于DNN包含包括隐藏层在内的很多层，我们可以表示== $X^{l+1}_{cs} = Y^l_{cs}$ ==

我们同样在dropout层通过fraction rate $r$ 随机丢弃输入层 $X^{l_{drop}}_n$ 。

在输出层中，我们可以生成== $Y^L_n$ ==

并通过== $p_n(\omega_\tau) = \frac{N}{\beta}\sum^{\frac{N}{\beta}}_{u=1}p^u_n(\omega_\tau)$ 找出每个 $\tau$ ==的预测损失

其中== $p^u_n(\omega_\tau)=(y^u_n-x^u_n)^2$ ==

== $x^u_n$ 和 $y^u_n$ 分别是矩阵 $X^1_n$ 和 $Y^L_n$ ==的元素

接下来，我们可以通过== $g^{\tau}_n = \bigtriangledown w_{\tau} = \frac{\partial p_n(w_{\tau})}{\partial w_{\tau}}$ ==来计算局部梯度。

当针对每个== $\tau$ 完成 $g^{\tau}_n$ 的计算时，每个MEN都会将此局部梯度发送给CS，从而得到全局梯度 $G_{\tau}$ ==

具体而言，CS充当参数服务器，以汇总来自所有连接的MEN的模型的梯度，然后在发送回MEN之前通过==等式(3)更新全局模型 $\omega _\tau$ ==。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-edkmbIL3-1589331737242)(…\2019-Distributed Deep Learning\1588230228041.png)]

这样做允许所有MENs通过彼此共享本地模型信息进行协作，从而通过CS进一步提高预测准确性。

为了确保过时的梯度为0，在CS同步接收到N个局部梯度（即== $g^{\tau}_n$ ==）之后，立即启用梯度平均处理。当使用过时/非最新全局模型计算局部梯度时，就会发生梯度失效。

DDL的整体梯度全局梯度 $G_{\tau}=\frac {1}{N} \sum ^N_{n=1}g^{\tau}_n$

为了最小化预测损失函数，即== $\min \limits _w p_n(\omega)$ ，在每个MEN-n处，我们仍采用Adam优化器并更新等式(2)(3)中表示的全局模型 $\omega_{\tau+1}$ ==。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SmoVA9P4-1589331737244)(…\2019-Distributed Deep Learning\1588221124725.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nrDOP0X6-1589331737246)(…\2019-Distributed Deep Learning\1588230228041.png)]

然后将这个== $\omega_{\tau+1}$ ==发回MENs，以进行下一个本地学习过程。继续上述过程，直到预测损失收敛或达到T。

然后，我们可以预测训练集 $X_n$ 的预测值 $\hat Y_n$ 和在每个MEN中使用 $\omega^*$ 和等式(4)的新数据集 $\hat X_n$ 。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rnR5HBsa-1589331737248)(…\2019-Distributed Deep Learning\1588234705698.png)]

图2总结了使用DDL进行主动合作缓存的算法。图2所示的**虚线框（b）**内的过程在CS处实现。

总体而言，对于基于DL的集中式缓存算法，所有数据集均被发送到CS以进行学习过程，因此MENs可以基于网络中的全局知识来缓存全局最受流行的内容。另一方面，对于基于DDL的缓存算法，使用在MENs之间共享的一些交换信息在本地学习数据集。因此，MENs可以基于全局信息共享在本地缓存最流行的内容。

性能评估

A.实验设置

我们使用TensorFlow CPU和180GB RAM的Intel Xeon Gold 6150 2.7GHz 18cores来评估1个CS和6个MEN的性能。我们将我们提出的方法与包括非预测方法，如最大访问频率（MFA）以及三种著名的机器学习方法（包括SVD [4]，NMF [10]和单层神经网络SLL）的基准方法进行比较。我们使用6040位拥有3952张电影的用户提供1M以上评级的Movielens 1M数据集。然后，我们将数据集分为80％训练数据集和20％测试数据集。当实施DDL时，我们从训练数据集中划分与MENs数量相等的样本数量。每个MEN运行测试数据集来进行流行度因子预测。对于DNN，我们使用每层64个神经元的两个hidden layers和一个fraction rate为0.8的dropout layer。我们还设置自适应学习率的Adam优化器initial step=0.001和epoch time = 2000。此外，我们考虑每个内容的大小相同为200MB。 MEN和CS之间的带宽设置为60Mbps。

B.仿真结果

图3显示了基准方法和所提出方法之间的比较。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GqqsRXNs-1589331737249)(…\2019-Distributed Deep Learning\1588244978236.png)]

我们首先评估随着学习轮次的增加的预测精度，即RMSE（标准误差），如图3(a)。通过DDL获得的RMSE比SVD和NMF降低了33.7％，比SLL降低了17.5％。原因是DDL可以在不同的MENs上独立地从整个数据集的子集中深入学习有意义的特征，因此，当将MENs所获得的局部模型聚合在一起时，学习新的测试数据集的敏感性变得更好。换句话说，所有MENs的平均预测关于MENs的数量将产生较少的方差和较低误差[11]。最后，当MENs数量持续增加时，RMSE将收敛在0.56。相反，SVD和NMF仅基于低秩近似[10]生成两个因子的线性假设，而SLL在没有隐藏层的情况下学习。这样，如果不深入学习表示形式，这些学习方法就无法适当地最小化RMSE。对于DL，虽然RMSE高于DDL，但相比于SVD和NMF的RMSEDL可以提高25.1％，比SLL的提高5.3％。

然后，我们观察平均通信延迟（即当请求的内容不在MENs高速缓存时的延迟）(图3(b))和在存储容量增加时的高速缓存命中率(图3©)。与RMSE的趋势相吻合，与其他基准方法相比，DL和DDL方法可以分别将平均延迟降低多达37.4％和47.4％，并将缓存命中率分别提高16.5％和21.1％。这是因为所提出的方法可以优化超参数设置的使用，以提高内容需求预测的准确性。超参数设置的示例包括隐藏层和神经元的数量，正则化方法，激活函数以及min-batch的大小。此外，与SVD，NMF，SLL和DL相比，使用具有3个MENs和MovieLens 1M数据集的DDL方法可以将通信开销减少多达87.2％。原因在于，在DDL方法中，CS仅需要从MENs收集训练后的模型，而无需考虑任何原始数据集传输。这样做的好处是减少了用户的私人信息披露。

我们还在图4中观察到NMF的学习时间很短，但是与所有其他学习方法相比，其在预测准确性方面的性能非常差。此外，随着MEN数量的增加，DDL可以比DL更快地学习数据集。如果我们继续增加MEN的数量，那么学习时间将收敛到0.3小时。这种有趣的趋势可以为MEC服务提供商提供有用的信息，以便在用户需求的学习时间与MEC网络中的实施成本之间进行权衡。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TXrDG82d-1589331737251)(…\2019-Distributed Deep Learning\1588246574169.png)]

low-rank approximation 低秩近似

https://www.linuxidc.com/Linux/2014-06/103495.htm

总结

在这份材料中，我们介绍了两种新颖的主动协作缓存方法，这些方法利用了针对MEC网络的深度学习（DL）算法。在第一种方法中，CS将从所有MEN中收集信息，并使用DL技术来预测用户对网络的需求。然后，我们提出了一种基于分布式DL（DDL）的方案，其中DL可以在边缘执行。这种方案允许MEN只交换用户的梯度信息，并执行DL来预测用户的需求，而不会泄露移动用户的私人信息。