partition：执行在雾设备上的CNN模型划分

最新推荐文章于 2024-12-31 23:58:20 发布

librahfacebook

最新推荐文章于 2024-12-31 23:58:20 发布

阅读量768

点赞数

分类专栏：模型压缩 Edge Computing 边缘智能文章标签：模型划分雾设备智能加速

本文链接：https://blog.csdn.net/librahfacebook/article/details/96431901

版权

本文提出了一种新的深度输入划分方案，用于在雾设备上执行CNN模型，以解决计算和内存限制问题。通过实验，证明了这种方法在分布式执行中的性能优势，特别是在处理大量输入和输出通道的现代CNNs时。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文出自论文 Partitioning of CNN Models for Execution on Fog Devices ，提出了一种新的针对CNN模型的深度输入划分方案，并通过实验来证明其良好性能。

深度神经网络的改进意味着广泛使用这种模型来分析和推理大量数据，包括传感器观察，图像和语音。对于这种在靠近数据源的设备上运行的推理任务的需求正在增长。这样的设备被放置在网络边缘，被称作雾设备，目的是为了减少上行网络流量。然而，现实中由于受到计算约束，在这样的设备上执行复杂的深度推理模型被证实很困难。因此引入了几个新的方法来划分或分配计算or数据到多个雾设备上。本文中，我们提出来一个新的针对CNN模型的深度输入划分方案，并通过实验证明到它能够获得较好的性能。

文章目录

一、简介

生成推理是处理体系结构的主要候选应用程序，因为处理更靠近源的数据可以保证较少的上行数据流量。在常用的边缘或雾设备中运行诸如Inception、Resnet、VGG等深度模型的主要挑战之一是每个模型的计算和内存需求。
在这项工作中，我们提出了一种方式来运行在一系列雾设备上卷积神经网络的深度推理操作，从而来实现高度推理。本文的主要共享点为：（1）一种新的深度输入划分方法，消除了与早期行列和网络划分方法相关的开销；（2）突出当前卷积层的输入和输出深度在分布式执行加速过程中的作用；（3）通过大量具有实际工作负载的模拟，来证明它在分布式执行中的作用。

二、相关工作

边缘计算（当前状态）：低延迟（通过物理上的接近）、数据减少、可扩展性、隐私性和安全性正在推动着边缘计算的出现。雾和边缘计算的最初挑战主要是服务标准化、第三方供应商的集成、机密数据（信任和隐私）的处理以及货币化。
DCNN加速和分布式执行：工作负载的划分是一种应用广泛的技术，我们的工作重点是寻找一种有效的机制，以无损的方式对CNNs的卷积层输入数据进行划分，从而增强上述技术。我们已经确定了两个较早的工作，综合处理卷积的分布式执行和CNN卷积层。其中，空间卷积是通过在一组并行计算机之间对图像进行分割来实现的。采用一种新的启发式分区策略对图像进行划分，该策略优于基于行/列的分区，且比基于网格的分区功能更强。一个详细的性能建模用来推动加速过程，并通过实验验证该模型。
CNN通过图像分割和模型压缩来分布到真实的手机中。一个自适应分区策略被设计出来，使划分沿着较短的边缘，导致较少的开销像素被交换。这个主要贡献是识别出移动设备在不需要时关闭其收发器，因此这里有必要在分析分发加速时包括这一点。
先前的工作都没有分析处理大量输入和输出通道的效果，这正是当前最新CNNs的实际标准。基于以上分析，我们提出来一个无损深度图像分割方案，这个方案会导致更多的加速，并使CNNs更适合在雾或边缘的网格中运行。

三、模型划分

一种自适应分区方法，将基于容量的负载分配给工作节点，其中分区将沿着相对较大的维度进行。在最先进的CNNs中，深度尺寸对于实现高精度变得非常重要。先前研究图像操作的分布式执行工作，像在网络服务器和移动网格上的卷积操作，并没有分析处理大量输入和输出通道的效果。
在我们的工作中，我们分割了一个图像和一个过滤器沿着深度维度分布在雾资源。此外，我们还将所有过滤器分配到资源中，这种结果是一个无损失的分区。
性能建模（分布式卷积层）：为了对卷积层分布式执行的性能建模，我们定义一个计算步骤：
$OFM_{Int1}[o_h,o_w,o_c]=\sum_{f_h=1}^{K}\sum_{f_w=1}^{F_w}F[f_h,f_w,i_c,o_c]I[o_h+f_h-1,o_w+f_w-1,i_c]$