集智书童 | 英伟达和斯坦福基于 Transformer 的异常检测最新研究!

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:英伟达和斯坦福基于 Transformer 的异常检测最新研究!

在作者推动各种视觉任务性能边界的同时,模型的大小也在相应增长。为了跟上这种增长,作者需要在边缘设备上进行高效推理和部署的非常激进的剪枝技术。

现有的剪枝方法仅限于通道剪枝,并且在大幅减少参数时遇到困难。在本文中,作者提出了一种新颖的多维剪枝框架,它可以在遵守延迟约束的同时,跨通道、层和块联合优化剪枝。

作者开发了一种能够准确捕捉剪枝期间全模型延迟变化的延迟建模技术,这对于在高剪枝比下实现延迟-准确度最优权衡至关重要。

作者将剪枝重新定义为混合整数非线性规划(MINLP),以高效地仅通过一次遍历确定最优剪枝结构。作者广泛的结果表明,与之前的方法相比,特别是在大剪枝比下,作者的方法有显著改进。

在分类任务中,作者的方法在Top-1准确度上显著优于HALP,达到70.0(对比68.6),并且在每秒帧数(FPS)上达到5262 im/s(对比4101 im/s)。

3D目标检测中,作者通过在45%的剪枝比下剪枝StreamPETR [60],比密集 Baseline 实现了更高的FPS(37.3 对比 31.7)和mAP(0.451 对比 0.449),确立了新的最先进水平。

1 Introduction

深度神经网络已经成为高级计算机视觉应用的事实标准,从图像分类[25]到目标检测[43]和分割[46]。当代网络[65, 15, 60]通常由基于卷积神经网络(CNN)的特征提取器和 Transformer 块组成,以捕捉全局线索。随着性能的提升,模型的大小也相应地膨胀,包含数百万甚至数十亿个参数[33]。这种模型大小的增长对于在资源受限的边缘设备上部署提出了挑战,阻碍了自动驾驶等实时推理任务,并且在云系统上进行训练和推理也产生了显著的成本。剪枝[50, 23, 54],即从网络中移除多余的参数,已成为一种有效的策略,以减少模型计算和大小,满足实时要求,而不会显著降低其准确性。为了跟上不断增长的模型大小,作者需要非常激进的剪枝技术来显著降低延迟,以便高效和实时地部署模型。

特别是通道剪枝作为减少模型计算的有效剪枝技术,已经引起了广泛关注,通常可以减少30% - 50%的计算量,实际上不需要对硬件进行更改。通道剪枝涉及根据某些重要性标准[39, 40, 50]移除多余的卷积滤波器,通常从预训练模型开始。尽管有所进步,但这些方法有两个关键限制。首先,通道剪枝方法仅限于通道 Level 的剪枝,而作者不能避免移除整个块或层以实现所需的更大剪枝比例(70%-90%)。只有少数工作涉及层或块剪枝。这些方法可以提供比通道剪枝更大的加速,但它们仅限于在层或块粒度上进行剪枝,并且不能同时引入通道稀疏性,导致次优的准确性。

其次,当前剪枝方法直接减少推理延迟时使用的延迟模型只考虑了每层输出通道数的变体,忽略了剪枝同时对输入通道的影响。这种不准确的延迟估计导致了在准确性和延迟之间的次优权衡,特别是在边缘上进行推理所需的大剪枝比例下。在大剪枝比例下,引导剪枝向最优结构变得更加具有挑战性,同时还要紧密遵循所需的延迟,而没有精确的建模。

本文提出了一种新颖的剪枝框架,有效克服了现有方法的局限性。具体来说,作者没有单独对通道或层进行建模。相反,作者首先在作者的公式中将同一块内的通道和层分组,使它们能够在优化过程中一起处理。这种统一的方法无缝集成了通道、层和块剪枝,使作者能够高效地确定所有 Level 的最优剪枝结构。其次,为了准确建模各层在不同配置下的延迟,作者提出了“双层面配置延迟”的概念,它考虑了所有层输入和输出通道数的同时变化。为了融合这两种策略,作者将剪枝重新定义为混合整数非线性规划(MINLP)。这使得作者能够直接求解符合特定延迟预算的最优剪枝结构,仅需一次遍历

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值