半结构化剪枝技术详解_n:m剪枝-CSDN博客

本文链接：https://blog.csdn.net/qq_44648285/article/details/148036217

半结构化剪枝技术详解

引言

在深度神经网络压缩领域，剪枝技术扮演着至关重要的角色。按照粒度和约束条件的不同，剪枝方法大致可分为非结构化剪枝和结构化剪枝。非结构化剪枝以单个权重为单位进行操作，可实现极高的理论压缩率，但难以在通用硬件上获得实际加速；结构化剪枝则移除整个结构单元（如通道、滤波器），虽然压缩率相对较低，但能直接转化为计算加速。介于两者之间的半结构化剪枝，为网络压缩提供了一种平衡方案，既保持一定的规则性以支持硬件加速，又提供比结构化剪枝更高的灵活性和压缩潜力。

半结构化剪枝的基本原理

半结构化剪枝的核心思想是在保持某种结构规律的同时，允许更细粒度的权重移除。这种方法通常会强制稀疏模式遵循特定的结构约束，例如组稀疏、块稀疏或N:M稀疏等。与完全自由的非结构化剪枝不同，半结构化剪枝在硬件友好性和压缩率之间取得了良好的平衡。

在深度神经网络中，一个层的权重可以表示为张量 $\mathbf{W} \in \mathbb{R}^{C_{out} \times C_{in} \times K \times K}$ （对于卷积层）或矩阵 $\mathbf{W} \in \mathbb{R}^{n_{out} \times n_{in}}$ （对于全连接层）。半结构化剪枝通过引入特定的结构约束，在这些权重张量或矩阵上创建规则的稀疏模式。

从数学角度看，半结构化剪枝可以表述为以下约束优化问题：

$\min_{\mathbf{W}'} \mathcal{L}(\mathbf{W}', \mathcal{D}) \quad \text{s.t.} \quad \mathbf{W}' \in \mathcal{S}_{\text{semi}}$

其中 $\mathcal{L}$ 是损失函数， $\mathcal{D}$ 是训练数据， $\mathcal{S}_{\text{semi}}$ 是满足半结构化约束的参数空间。这个参数空间比非结构化稀疏空间 $\mathcal{S}_{\text{unstructured}} = \{\mathbf{W} : \|\mathbf{W}\|_0 \leq k\}$ 更加受限，但比结构化稀疏空间 $\mathcal{S}_{\text{structured}}$ （如通道剪枝）更加灵活。

半结构化剪枝的数学表示

为了实现半结构化剪枝，我们首先定义适当的掩码矩阵 $\mathbf{M}$ ，使得剪枝后的参数为 $\mathbf{W}' = \mathbf{W} \odot \mathbf{M}$ ，其中 $\odot$ 表示逐元素乘法。关键在于设计 $\mathbf{M}$ 使其满足特定的结构约束。

以最常见的N:M稀疏模式为例，它要求每M个连续权重中至多保留N个非零元素。这可以表示为：

$\sum_{j=iM}^{(i+1)M-1} \mathbb{I}(W_j \neq 0) \leq N, \quad \forall i = 0,1,\ldots,\lfloor \frac{|\mathbf{W}|-1}{M} \rfloor$

其中 $\mathbb{I}(\cdot)$ 是指示函数，当条件成立时值为1，否则为0。

对于组稀疏（Group Sparsity），我们将权重分为多个组，并对每组单独应用稀疏约束。定义权重组 $\mathcal{G} = \{g_1, g_2, ..., g_G\}$ ，每个组 $g_i$ 包含一组权重指标。组稀疏约束可以表示为：

$\sum_{i=1}^G \mathbb{I}\left(\sum_{j \in g_i} |W_j|^2 > 0\right) \leq k_g$

其中 $k_g$ 是允许的非零组数量。

对于块稀疏（Block Sparsity），我们考虑权重矩阵中的子块。对于矩阵 $\mathbf{W} \in \mathbb{R}^{m \times n}$ ，我们可以将其划分为 $\frac{m}{b_1} \times \frac{n}{b_2}$ 个大小为 $b_1 \times b_2$ 的块。块稀疏约束要求：

$\sum_{i=1}^{m/b_1} \sum_{j=1}^{n/b_2} \mathbb{I}\left(\|\mathbf{W}_{i,j}^{\text{block}}\|_F > 0\right) \leq k_b$

其中 $\mathbf{W}_{i,j}^{\text{block}}$ 表示第 $(i, j)$ 个块， $\|\cdot\|_F$ 是Frobenius范数， $k_b$ 是允许的非零块数量。

更一般地，半结构化剪枝可以通过结构化正则化来实现。例如，对于组稀疏，我们可以使用混合范数正则化：

$\mathcal{R}(\mathbf{W}) = \sum_{i=1}^G \|\mathbf{W}_{g_i}\|_2 = \sum_{i=1}^G \sqrt{\sum_{j \in g_i} W_j^2}$

其中 $\mathbf{W}_{g_i}$ 表示组 $g_i$ 中的权重。这种 $\ell_{1,2}$ 范数促进组间稀疏和组内密集。

对于N:M稀疏，可以使用以下正则化形式：

$\mathcal{R}(\mathbf{W}) = \sum_{i=0}^{\lfloor \frac{|\mathbf{W}|-1}{M} \rfloor} \mathcal{R}_{\text{top-N}}\left(\{W_j : j = iM, \ldots, (i+1)M-1\}\right)$

其中 $\mathcal{R}_{\text{top-N}}$ 是一个促进保留最大N个元素的正则化项。

典型的半结构化剪枝方法

N:M稀疏模式

N:M稀疏是最流行的半结构化剪枝模式之一，特别是在NVIDIA Ampere架构GPU上有硬件加速支持。以2:4稀疏（每4个连续权重中保留2个）为例，具体剪枝步骤如下：

首先定义每个稀疏组中权重的重要性度量，如绝对值：

$s_j = |W_j|$

对于每个包含M个连续权重的组，我们保留重要性排名前N的权重，移除其余的权重：

$M_j = \begin{cases} 1, & \text{if } s_j \text{ is among the top-N values in its group} \\ 0, & \text{otherwise} \end{cases}$

在训练过程中，我们可以定期更新这一稀疏模式，使网络逐步适应N:M约束。

在实际实现中，可以通过以下步骤实现N:M稀疏：

将权重矩阵重塑为形状为 $(\frac{|\mathbf{W}|}{M}, M)$ 的矩阵
对每行执行部分排序，找出前N大的元素
将其余元素置零
将矩阵重塑回原始形状

更高效的实现可以使用位掩码和位操作来维护N:M稀疏模式，减少内存开销。

为了增强N:M稀疏的有效性，我们可以考虑权重重要性的动态变化。定义时刻t在组i中权重j的动态重要性为：

$s_{i,j}^t = |W_{i,j}^t| + \lambda \cdot |\nabla_{\!W_{i,j}} \mathcal{L}^t|$

其中第二项考虑了梯度的幅值， $\lambda$ 是平衡系数。这使得模型能够适应性地调整稀疏模式。

结构化组稀疏

结构化组稀疏（Structured Group Sparsity）考虑了权重之间的结构关系，将相关权重组织为组，并在组层面上应用稀疏约束。对于卷积神经网络，常见的组结构包括：

输出通道组： $g_i = \{\mathbf{W}_{i,:,:,:}\}$ ，每组包含一个完整的输出通道
输入通道组： $g_{i,j} = \{\mathbf{W}_{:,j,:,:}\}$ ，每组包含一个完整的输入通道
卷积核组： $g_{i,j} = \{\mathbf{W}_{i,j,:,:}\}$ ，每组包含一个 $\times K$ 卷积核

组稀疏的训练目标包含正则化项：

$\min_{\mathbf{W}} \mathcal{L}(\mathbf{W}, \mathcal{D}) + \lambda \sum_{g \in \mathcal{G}} \|\mathbf{W}_g\|_2$

其中 $\lambda$ 是正则化强度， $\|\mathbf{W}_g\|_2 = \sqrt{\sum_{j \in g} W_j^2}$ 是组 $g$ 的 $\ell_2$ 范数。

在剪枝阶段，我们计算每个组的范数，并保留范数最大的 $k_g$ 个组：

$\text{norm}_g = \|\mathbf{W}_g\|_2 = \sqrt{\sum_{j \in g} W_j^2}$

$M_g = \begin{cases} 1, & \text{if } \text{norm}_g \text{ is among the top-}k_g \text{ values} \\ 0, & \text{otherwise} \end{cases}$

组稀疏性的一个重要变体是结构化稀疏学习（SSL），它对不同的组结构同时应用稀疏约束：

$\mathcal{R}_{\text{SSL}}(\mathbf{W}) = \lambda_1 \sum_{i} \|\mathbf{W}_{i,:,:,:}\|_2 + \lambda_2 \sum_{j} \|\mathbf{W}_{:,j,:,:}\|_2 + \lambda_3 \sum_{i,j} \|\mathbf{W}_{i,j,:,:}\|_2$

这种多级结构化稀疏能够捕捉更复杂的权重相关性。

块稀疏

块稀疏（Block Sparsity）将权重矩阵划分为规则的块，并在块级别应用稀疏约束。对于权重矩阵 $\mathbf{W} \in \mathbb{R}^{m \times n}$ ，我们将其划分为大小为 $b_1 \times b_2$ 的块：

$\mathbf{W} = \begin{bmatrix} \mathbf{W}_{1,1}^{\text{block}} & \mathbf{W}_{1,2}^{\text{block}} & \cdots & \mathbf{W}_{1,n/b_2}^{\text{block}} \\ \mathbf{W}_{2,1}^{\text{block}} & \mathbf{W}_{2,2}^{\text{block}} & \cdots & \mathbf{W}_{2,n/b_2}^{\text{block}} \\ \vdots & \vdots & \ddots & \vdots \\ \mathbf{W}_{m/b_1,1}^{\text{block}} & \mathbf{W}_{m/b_1,2}^{\text{block}} & \cdots & \mathbf{W}_{m/b_1,n/b_2}^{\text{block}} \end{bmatrix}$

块稀疏的优化目标可以表示为：

$\min_{\mathbf{W}} \mathcal{L}(\mathbf{W}, \mathcal{D}) + \lambda \sum_{i=1}^{m/b_1} \sum_{j=1}^{n/b_2} \|\mathbf{W}_{i,j}^{\text{block}}\|_F$

其中 $\|\mathbf{W}_{i,j}^{\text{block}}\|_F = \sqrt{\sum_{p=1}^{b_1} \sum_{q=1}^{b_2} (W_{(i-1)b_1+p,(j-1)b_2+q})^2}$ 是块的Frobenius范数。

在剪枝阶段，我们保留范数最大的 $k_b$ 个块：

$\text{norm}_{i,j}^{\text{block}} = \|\mathbf{W}_{i,j}^{\text{block}}\|_F$

$M_{i,j}^{\text{block}} = \begin{cases} 1, & \text{if } \text{norm}_{i,j}^{\text{block}} \text{ is among the top-}k_b \text{ values} \\ 0, & \text{otherwise} \end{cases}$

块稀疏特别适合于矩阵乘法运算的加速，因为它允许使用优化的稀疏BLAS（Basic Linear Algebra Subprograms）库。

加权熵稀疏正则化

加权熵稀疏正则化（Weighted Entropy-based Sparsity Regularization, WESR）是一种灵活的半结构化剪枝方法，它通过软约束和加权策略实现灵活的稀疏模式。WESR定义如下：

$\mathcal{R}_{\text{WESR}}(\mathbf{W}) = \sum_{g \in \mathcal{G}} \omega_g \cdot H\left(\frac{|\mathbf{W}_g|}{\sum_{j \in g} |W_j|}\right)$

其中 $-\sum_i p_i \log p_i$ 是Shannon熵， $\omega_g$ 是组 $g$ 的权重系数。熵越小，权重分布越集中，促进组内稀疏。

WESR的一个变体是结合 $\ell_{1/2}$ 正则化：

$\mathcal{R}_{\text{WESR-L1/2}}(\mathbf{W}) = \sum_{g \in \mathcal{G}} \omega_g \cdot H\left(\frac{|\mathbf{W}_g|}{\sum_{j \in g} |W_j|}\right) + \lambda \sum_{j} |W_j|^{1/2}$

这种组合能够在不同粒度上促进稀疏性。

半结构化剪枝的理论分析

压缩率与计算加速分析

半结构化剪枝的压缩率和计算加速取决于具体的稀疏模式。对于N:M稀疏，理论压缩率为：

$\text{理论压缩率} = \frac{M}{N}$

例如，2:4稀疏的理论压缩率为2。

在考虑存储格式的实际压缩率通常较低，因为需要额外的索引信息：

$\text{实际压缩率} = \frac{32 \cdot |\mathbf{W}|}{32 \cdot \frac{N}{M} \cdot |\mathbf{W}| + \text{索引开销}}$

对于块稀疏，索引开销相对较小，因为只需要记录每个块的状态：

$\text{块稀疏压缩率} = \frac{32 \cdot m \cdot n}{32 \cdot k_b \cdot b_1 \cdot b_2 + \log_2(2) \cdot \frac{m \cdot n}{b_1 \cdot b_2}}$

其中 $log_2(2) = 1$ 比特用于表示每个块是否被保留。

计算加速方面，N:M稀疏的理论加速比也为 $\frac{M}{N}$ 。但实际加速取决于硬件支持。例如，NVIDIA Ampere架构通过张量核心直接支持2:4稀疏，理论上可以实现接近2倍的加速。

块稀疏的计算加速取决于块大小和硬件特性。对于块大小为 $b_1 \times b_2$ 的块稀疏，理论加速比为：

$\text{块稀疏加速比} = \frac{m \cdot n \cdot p}{k_b \cdot b_1 \cdot b_2 \cdot p + \text{调度开销}}$

其中 $p$ 是另一个维度（如批量大小）。

表达能力与性能保持分析

半结构化剪枝的一个关键问题是：相比于结构化和非结构化剪枝，它如何影响网络的表达能力？通过信息论和矩阵近似理论，我们可以分析这一问题。

对于给定的压缩率 $r$ ，不同剪枝方法保留的参数数量如下：

非结构化剪枝： $\frac{|\mathbf{W}|}{r}$ 个任意参数
结构化剪枝： $\frac{|\mathbf{W}|}{r}$ 个结构化参数（如完整通道）
半结构化剪枝： $\frac{|\mathbf{W}|}{r}$ 个半结构化参数（如满足N:M约束）

从随机矩阵理论角度，对于矩阵 $\mathbf{W} \in \mathbb{R}^{m \times n}$ 的最佳秩- $k$ 近似为其前 $k$ 个奇异值对应的成分。非结构化剪枝理论上可以近似这一最优解，而结构化剪枝则受到很大限制。半结构化剪枝提供了一个折中方案，尤其是当结构单元（如块）的大小适当选择时。

具体而言，对于块大小为 $\times b$ 的块稀疏，矩阵近似误差与最优秩- $k$ 近似的比值上界为：

$\frac{\|\mathbf{W} - \mathbf{W}_{\text{block}}\|_F}{\|\mathbf{W} - \mathbf{W}_k\|_F} \leq \sqrt{\frac{mn}{kb^2}}$

其中 $\mathbf{W}_{\text{block}}$ 是块稀疏近似， $\mathbf{W}_k$ 是最优秩- $k$ 近似。当 $b$ 增大时，近似质量提高。

对于N:M稀疏，我们可以从信息熵角度分析其表达能力。如果非结构化剪枝保留参数的熵为 $H_{\text{unstr}}$ ，则N:M稀疏的熵约为：

$H_{\text{N:M}} \approx \frac{|\mathbf{W}|}{M} \cdot \log_2 \binom{M}{N}$

当 $N / M$ 固定时， $H_{\text{N:M}}$ 随着 $M$ 的增加而增加，表明更细粒度的组划分能够提供更大的表达灵活性。

优化理论分析

从优化角度看，半结构化剪枝介于非结构化和结构化剪枝之间。考虑损失函数对权重的敏感度：

$\Delta \mathcal{L} = \sum_{i,j} \frac{\partial \mathcal{L}}{\partial W_{i,j}} \Delta W_{i,j} + \frac{1}{2} \sum_{i,j,k,l} \frac{\partial^2 \mathcal{L}}{\partial W_{i,j} \partial W_{k,l}} \Delta W_{i,j} \Delta W_{k,l} + O(\|\Delta \mathbf{W}\|^3)$

非结构化剪枝可以选择敏感度最低的单个权重进行剪枝，而结构化剪枝需要移除整个结构单元，即使其中包含高敏感度权重。半结构化剪枝在更小的结构单元（如块或N:M组）内选择敏感度最低的权重，提供了更好的平衡。对于N:M稀疏，在每个包含M个权重的组内，我们保留敏感度最低的N个权重。如果权重敏感度在组内均匀分布，那么相比于选择整个网络中敏感度最低的 $\frac{N}{M}|\mathbf{W}|$ 个权重（非结构化剪枝），N:M稀疏的额外损失约为：

$\Delta \mathcal{L}_{\text{extra}} \approx \frac{1}{2} \cdot \frac{M-N}{M} \cdot \frac{N}{M} \cdot \sum_{i=1}^{|\mathbf{W}|/M} \max_{j \in g_i} s_j - \min_{j \in g_i} s_j$

其中 $s_j$ 是权重 $j$ 的敏感度， $g_i$ 是第 $i$ 个组。当组内敏感度差异小时，N:M稀疏接近非结构化剪枝的性能。

半结构化稀疏模式和微结构设计

N:M结构细粒度设计

N:M稀疏模式允许在不同维度上应用，从而产生不同的微结构特性。以卷积层为例，给定权重张量 $\mathbf{W} \in \mathbb{R}^{C_{out} \times C_{in} \times K \times K}$ ，我们可以设计以下变体：

通道内N:M稀疏：在每个输出通道内应用N:M稀疏
$\sum_{j=(i-1)M}^{iM-1} \mathbb{I}(W_{c_{out},c_{in},j \mod K, \lfloor j/K \rfloor} \neq 0) \leq N, \quad \forall i, c_{out}, c_{in}$
滤波器内N:M稀疏：在每个 $\times K$ 滤波器内应用N:M稀疏
$\sum_{h=1}^K \sum_{w=1}^K \mathbb{I}(W_{c_{out},c_{in},h,w} \neq 0) \leq \frac{N}{M} \cdot K^2, \quad \forall c_{out}, c_{in}$
输出通道内N:M稀疏：在每个输出通道内跨所有输入通道应用N:M稀疏
$\sum_{c_{in}=1}^{C_{in}} \sum_{h=1}^K \sum_{w=1}^K \mathbb{I}(W_{c_{out},c_{in},h,w} \neq 0) \leq \frac{N}{M} \cdot C_{in} \cdot K^2, \quad \forall c_{out}$

这些变体提供了不同程度的结构规律性和灵活性，可根据硬件特性和应用需求选择。

研究表明，2:4稀疏是一个特别有效的选择，因为它既提供了足够的压缩率，又能保持良好的模型性能。实验结果显示，在相同的压缩率下，2:4稀疏通常优于1:2稀疏，接近于非结构化剪枝的性能。这可以从信息论角度解释：2:4稀疏的熵为：

$H_{2:4} = \frac{|\mathbf{W}|}{4} \cdot \log_2 \binom{4}{2} = \frac{|\mathbf{W}|}{4} \cdot \log_2 6 \approx 0.65 \cdot |\mathbf{W}|$

这意味着2:4稀疏可以表达的模式数量比1:2稀疏（ $H_{1:2} = \frac{|\mathbf{W}|}{2} \cdot \log_2 2 = 0.5 \cdot |\mathbf{W}|$ ）更多，因此能够更好地近似原始密集网络。

分组和重叠块设计

块稀疏可以通过分组和重叠设计进一步增强。考虑权重矩阵 $\mathbf{W} \in \mathbb{R}^{m \times n}$ ，除了标准的不重叠块划分外，我们还可以设计：

重叠块：相邻块之间有重叠区域，增加表达灵活性
$\mathbf{W}_{i,j}^{\text{overlap}} = \mathbf{W}_{(i-1)b_1-o_1:(i-1)b_1+b_1+o_1, (j-1)b_2-o_2:(j-1)b_2+b_2+o_2}$
其中 $o_1$ 和 $o_2$ 是重叠大小。
层次化块：大块内包含小块，允许多粒度稀疏
$\mathbf{W} = \{\mathbf{W}_{\text{large}}^1, \mathbf{W}_{\text{large}}^2, \ldots\}$
$\mathbf{W}_{\text{large}}^i = \{\mathbf{W}_{\text{small}}^{i,1}, \mathbf{W}_{\text{small}}^{i,2}, \ldots\}$
变形块：非矩形形状的块，适应特定结构模式
$\mathbf{W}_{\text{shape}}^i = \{W_{p,q} : (p,q) \in \text{shape}_i\}$
其中 $\text{shape}_i$ 定义了块的形状。

这些高级块设计可以适应不同的网络结构和数据特性，提供更精细的剪枝控制。实验表明，适当的块设计可以显著提高半结构化剪枝的有效性。

优化算法

基于ADMM的半结构化剪枝优化

交替方向乘子法（ADMM）是求解半结构化剪枝问题的有效方法。我们首先将原问题重新表述为：

$\min_{\mathbf{W}, \mathbf{Z}} \mathcal{L}(\mathbf{W}, \mathcal{D}) \quad \text{s.t.} \quad \mathbf{W} = \mathbf{Z}, \mathbf{Z} \in \mathcal{S}_{\text{semi}}$

构造增广拉格朗日函数：

$\mathcal{L}_{\rho}(\mathbf{W}, \mathbf{Z}, \mathbf{U}) = \mathcal{L}(\mathbf{W}, \mathcal{D}) + \frac{\rho}{2}\|\mathbf{W} - \mathbf{Z} + \mathbf{U}\|_F^2 - \frac{\rho}{2}\|\mathbf{U}\|_F^2$

ADMM迭代步骤为：

更新 $\mathbf{W}$ ： $\mathbf{W}^{k+1} = \arg\min_{\mathbf{W}} \mathcal{L}(\mathbf{W}, \mathcal{D}) + \frac{\rho}{2}\|\mathbf{W} - \mathbf{Z}^k + \mathbf{U}^k\|_F^2$
更新 $\mathbf{Z}$ ： $\mathbf{Z}^{k+1} = \Pi_{\mathcal{S}_{\text{semi}}}(\mathbf{W}^{k+1} + \mathbf{U}^k)$
更新乘子： $\mathbf{U}^{k+1} = \mathbf{U}^k + \mathbf{W}^{k+1} - \mathbf{Z}^{k+1}$

其中 $\Pi_{\mathcal{S}_{\text{semi}}}$ 是将参数投影到半结构化稀疏空间的操作。对于N:M稀疏，这个投影操作是：

$\Pi_{\text{N:M}}(\mathbf{V}) = \mathbf{V} \odot \mathbf{M}_{\text{N:M}}$

其中 $\mathbf{M}_{\text{N:M}}$ 是保留每M个连续元素中绝对值最大的N个元素的掩码。

对于块稀疏，投影操作为：

$\Pi_{\text{block}}(\mathbf{V}) = \mathbf{V} \odot \mathbf{M}_{\text{block}}$

其中 $\mathbf{M}_{\text{block}}$ 是保留Frobenius范数最大的 $k_b$ 个块的掩码。

基于正则化的优化

半结构化剪枝也可以通过适当的正则化项实现。例如，对于块稀疏，我们可以使用组范数正则化：

$\min_{\mathbf{W}} \mathcal{L}(\mathbf{W}, \mathcal{D}) + \lambda \sum_{i=1}^{m/b_1} \sum_{j=1}^{n/b_2} \|\mathbf{W}_{i,j}^{\text{block}}\|_F$

对于N:M稀疏，我们可以使用以下正则化形式：

$\min_{\mathbf{W}} \mathcal{L}(\mathbf{W}, \mathcal{D}) + \lambda \sum_{i=0}^{\lfloor \frac{|\mathbf{W}|-1}{M} \rfloor} \Phi\left(\{W_j : j = iM, \ldots, (i+1)M-1\}\right)$

其中 $\Phi$ 是促进组内稀疏的函数，例如：

$\Phi(\mathbf{w}) = \|\mathbf{w}\|_1 - \sum_{i=1}^N |w_{[i]}|$

这里 $w_{[i]}$ 是 $\mathbf{w}$ 中第 $i$ 大的元素（按绝对值）。这个正则化项惩罚除了绝对值最大的N个元素之外的所有元素。

基于动态稀疏训练的优化

动态稀疏训练（Dynamic Sparse Training, DST）是一种有效的半结构化剪枝优化方法。在DST框架下，我们维持固定的半结构化稀疏模式，但允许非零权重的位置动态变化。

具体而言，在每次迭代 $t$ 中，我们执行以下步骤：

前向传播和反向传播，更新当前活跃权重
计算每个组（如N:M组或块）中权重的潜在贡献： $s_j^t = |W_j^t| + \gamma \cdot |\nabla_{\!W_j} \mathcal{L}^t|$
在每个组内，保留贡献最大的N个权重，剪掉其余的，得到新的掩码 $\mathbf{M}^{t+1}$
更新参数： $\mathbf{W}^{t+1} = \mathbf{W}^t \odot \mathbf{M}^{t+1}$