论文复现：Learning Efficient Convolutional Networks through Network Slimming

Robohaha

已于 2022-09-28 11:10:50 修改

阅读量1.4k

点赞数 8

分类专栏：论文复现文章标签：深度学习人工智能机器学习剪枝神经网络

于 2022-09-23 14:15:51 首次发布

本文链接：https://blog.csdn.net/qq_28094537/article/details/126966014

版权

这篇博客介绍了论文'Learning Efficient Convolutional Networks through Network Slimming'提出的结构化剪枝策略，主要针对卷积网络的通道进行剪枝。通过在Batch Normalization层的缩放因子上应用L1正则化，诱导通道稀疏性。博主详细阐述了论文的损失函数、训练过程，并分享了复现论文时针对ResNet18结构的实现细节，包括如何处理L1正则化的不可导问题以及处理Shortcut结构的剪枝策略。实验结果显示，在保持模型精度的同时，显著减少了模型的参数量和计算量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文核心

论文提出了一种结构化剪枝策略，剪枝对象为 channel ，对 channel 重要性的评价标准使用的是 Batch Normalization 层中的缩放因子，这不会给网络带来额外的开销。

在这里插入图片描述

论文细节品读

带 $L 1$ 正则的损失函数：
首先得了解 $L 1$ 正则为何能带来稀疏性，相关解释链接
于是论文作者为了诱导 $BN$ 层缩放因子 $\gamma$ 产生稀疏性，对 $BN$ 层的 $\gamma$ 使用 $L 1$ 正则，于是更新后的损失函数如下：
$L=\sum\limits_{(x,y)}l(f(x,W),y)+\lambda\sum\limits_{\gamma\in\Gamma}g(\gamma) }$
而这多出的 $L 1$ 正则化项不是处处可导的，反向传播时需要把该部分单独处理。这在论文复现部分讨论。

经典三步走：
同样采用了这里的三步走方式以获取最大剪枝率和精度，这里特点是在训练反向传播过程中加入了对 $\gamma$ 的稀疏诱导。
在这里插入图片描述

论文复现

准备：
模型选择resnet18，优化器选择 SGD，等等。保证和上个论文复现实验基本条件一致。上篇论文复现
$\gamma$ 处理方式：
首先对上面内容填坑，给出论文作者是如何处理 $L 1$ 正则化下项无法求导（严格的说是不能处处求导，在 $x = 0$ 处无法求导）从而无法使用传统的梯度下降法的。下面是源码部分：

def updateBN():
    for m in model.modules():
        if isinstance(m, nn.BatchNorm2d):
            m.weight.grad.data.add_(args.s*torch.sign(m.weight.data))  # L1

在 BN 层中先对 $\gamma$ 求导，也就是 torch.sign(m.weight.data)，其实求导的值只有0，1，-1三个。然后乘以一个很小的系数，一般选择0.0001，最后再将该部分的值加入到上一次的 $\gamma$ 导数值之中。这个过程在反向传播。

data, target = Variable(data), Variable(target)
        optimizer.zero_grad()
        output = model(data)
        loss = F.cross_entropy(output, target)
        loss.backward()
        # 反向传播时更新γ的梯度值
        if args.sr:
            updateBN()
        optimizer.step()

Channel 剪枝：
源码是先统计所有 feature map 的总 channel 数，也就是 $\gamma$ 总个数。
由于源码给出的是 VGG 网络的剪枝，而我实验的网络为 resnet18，其中存在 Shoutcut 结构，因此不能像 VGG 一样无脑的统计所有 channel 数，需要特殊的处理方式。因为论文中也没有提到对 Shoutcut 的特殊处理方式，所以这里就自由发挥了。
为了简化实验，我选择将 Shoutcut 连接的 feature map 不做剪枝处理，这实际是只对8个 feature map 剪枝。下图中被红色框框选的 block 是我要剪枝的目标。
在这里插入图片描述

下面是我关键思路的代码，这部分代码参杂较多个人修改的东西，如有不恰当的地方，请指正：

# channel 剪枝 --- Learning Efficient Convolutional Networks through Network Slimming
def prune_channel(model, prune_rates):
    total = 0
    count = 0
    # 和shortcut不相关的block，会被裁剪
    prune_block = [1, 3, 5, 8, 10, 13, 15, 18]
    # basicblock 中和 shoutcut关联的block
    block_basic_sc_connect = [2, 4, 6, 9, 11, 14, 16, 19]
    for m in model.modules():
        if isinstance(m, nn.BatchNorm2d):
            if prune_block.count(count) == 1:
                total += m.weight.data.shape[0]
            count += 1
    bn = torch.zeros(total)

    index = 0
    count = 0
    for m in model.modules():
        if isinstance(m, nn.BatchNorm2d):
            if prune_block.count(count) == 1:
                size = m.weight.data.shape[0

最低0.47元/天解锁文章