资源约束下的结构化剪枝技术_知识约束的动作空间剪枝-CSDN博客

本文链接：https://blog.csdn.net/qq_44648285/article/details/148036019

资源约束下的结构化剪枝技术

引言

结构化剪枝是神经网络压缩领域中的一项关键技术，它通过有选择地移除整个结构单元（如通道、滤波器或层）来减小模型尺寸并提高计算效率。在现实应用中，我们往往面临着严格的资源限制，比如内存容量、计算能力、能耗或延迟要求。

结构化剪枝基础

神经网络剪枝可分为非结构化剪枝和结构化剪枝。非结构化剪枝针对单个权重进行操作，虽然理论上可以实现高压缩率，但难以在通用硬件上获得实际加速。相比之下，结构化剪枝移除整个结构单元，虽然压缩率可能较低，但能直接转化为计算加速。

在卷积神经网络中，一个典型的卷积层可表示为：

$\mathbf{Y} = \mathbf{W} * \mathbf{X}$

其中 $\mathbf{X} \in \mathbb{R}^{C_{in} \times H_{in} \times W_{in}}$ 是输入特征图， $\mathbf{W} \in \mathbb{R}^{C_{out} \times C_{in} \times K \times K}$ 是卷积核， $\mathbf{Y} \in \mathbb{R}^{C_{out} \times H_{out} \times W_{out}}$ 是输出特征图， $*$ 表示卷积操作。

从计算复杂度角度看，卷积操作的FLOPs可表示为：

$\text{FLOPs}(\mathbf{W}, \mathbf{X}) = 2 \cdot C_{out} \cdot C_{in} \cdot K^2 \cdot H_{out} \cdot W_{out}$

结构化剪枝后，如果保留 $C_{out}'$ 个输出通道和 $C_{in}'$ 个输入通道，则计算复杂度降为：

$\text{FLOPs}(\mathbf{W}', \mathbf{X}') = 2 \cdot C_{out}' \cdot C_{in}' \cdot K^2 \cdot H_{out} \cdot W_{out}$

从信息论角度考虑，我们可以通过特征图熵来衡量通道信息量：

$H(\mathbf{Y}_j) = -\sum_{h,w,b} P(\mathbf{Y}_j^{h,w,b}) \log P(\mathbf{Y}_j^{h,w,b})$

其中 $P(\mathbf{Y}_j^{h,w,b})$ 是特征图第 $j$ 通道在位置 $(h, w)$ 和批次 $b$ 上的归一化激活值概率分布。

资源约束建模

在实际应用中，我们通常需要在满足特定资源约束的条件下进行剪枝。这些约束可以表示为：

$R(\mathbf{W}') \leq R_{target}$

其中 $\mathbf{W}'$ 是剪枝后的模型参数， $R(\cdot)$ 是资源测量函数， $R_{target}$ 是目标资源限制。

多目标资源约束可以表示为向量形式：

$\mathbf{R}(\mathbf{W}') \preceq \mathbf{R}_{target}$

其中 $\mathbf{R}(\mathbf{W}') = [R_1(\mathbf{W}'), R_2(\mathbf{W}'), \ldots, R_m(\mathbf{W}')]^T$ 是 $m$ 种资源测量的向量， $\preceq$ 表示逐元素小于等于。

考虑参数量、计算复杂度和延迟等多种资源约束时，我们可以构建加权约束：

$\sum_{i=1}^m \omega_i \cdot \frac{R_i(\mathbf{W}')}{R_{i,target}} \leq 1$

其中 $\omega_i$ 是每种资源约束的权重系数，满足 $\sum_{i=1}^m \omega_i = 1$ 。

资源与网络结构之间的关系可以通过函数 $R(\mathbf{c})$ 建模，其中 $\mathbf{c} = [c_1, c_2, \ldots, c_L]$ 表示各层的通道数。对于计算复杂度，可以表示为：

$R_{FLOPs}(\mathbf{c}) = \sum_{l=1}^{L-1} 2 \cdot c_l \cdot c_{l+1} \cdot K_l^2 \cdot H_l \cdot W_l$

结构化剪枝的数学公式化

剪枝优化目标

结构化剪枝可以形式化为一个约束优化问题：

$\min_{\mathbf{W}'} \mathcal{L}(\mathbf{W}', \mathcal{D}) \quad \text{s.t.} \quad R(\mathbf{W}') \leq R_{target}$

这个问题可以转化为拉格朗日形式：

$\mathcal{L}_{total}(\mathbf{W}') = \mathcal{L}(\mathbf{W}', \mathcal{D}) + \lambda \cdot \max(0, R(\mathbf{W}') - R_{target})$

考虑二值掩码变量，我们可以进一步将问题转化为：

$\min_{\mathbf{M}, \mathbf{W}'} \mathcal{L}(\mathbf{M} \odot \mathbf{W}', \mathcal{D}) \quad \text{s.t.} \quad \|\mathbf{M}\|_0 \leq k$

其中 $\mathbf{M}$ 是结构掩码， $\odot$ 表示逐元素乘法， $k$ 是保留的结构单元数量。

由于 $L_0$ 范数优化是NP-hard问题，我们可以通过连续松弛将其近似为：

$\min_{\mathbf{M}, \mathbf{W}'} \mathcal{L}(\mathbf{M} \odot \mathbf{W}', \mathcal{D}) + \lambda \cdot \|\mathbf{M}\|_p^p$

其中 $p$ 可以是0.5、1或2，分别对应不同程度的稀疏性近似。当 $\to 0$ 时， $\|\mathbf{M}\|_p^p$ 越接近 $\|\mathbf{M}\|_0$ 。

从贝叶斯角度看，我们可以将结构掩码 $\mathbf{M}$ 视为随机变量，并引入变分推断框架：

$\min_{\phi} \mathbb{E}_{q_{\phi}(\mathbf{M})}[\mathcal{L}(\mathbf{M} \odot \mathbf{W}', \mathcal{D})] + \lambda \cdot \text{KL}(q_{\phi}(\mathbf{M}) \| p(\mathbf{M}))$

其中 $q_{\phi}(\mathbf{M})$ 是掩码的变分后验分布， $p(\mathbf{M})$ 是先验分布。

通道剪枝数学表达

以通道剪枝为例，考虑第 $l$ 层的输出通道剪枝，可以引入通道重要性度量 $s_j^l$ ：

$s_j^l = I(\mathbf{W}_j^l, \mathbf{X}^l, \mathbf{Y}^l)$

其中 $I(\cdot)$ 是重要性评估函数， $\mathbf{W}_j^l$ 是第 $l$ 层第 $j$ 个输出通道的参数。

基于此，我们可以定义通道掩码：

$m_j^l = \begin{cases} 1, & \text{if } s_j^l > \tau^l \\ 0, & \text{otherwise} \end{cases}$

其中 $\tau^l$ 是第 $l$ 层的剪枝阈值。为确定最优阈值，我们可以将其表述为二分搜索问题：

$\tau^l = \argmin_{\tau} \left| \sum_{j=1}^{C_l} \mathbb{I}(s_j^l > \tau) - (1-r^l) \cdot C_l \right|$

其中 $r^l$ 是第 $l$ 层的目标剪枝率， $\mathbb{I}(\cdot)$ 是指示函数。

为了处理二元掩码的不可微性，我们可以引入软掩码近似：

$\tilde{m}_j^l = \sigma\left(\alpha \cdot (s_j^l - \tau^l)\right)$

其中 $\sigma$ 是sigmoid函数， $\alpha$ 是控制近似陡度的参数。当 $\alpha \to \infty$ 时， $\tilde{m}_j^l$ 趋近于 $m_j^l$ 。

常见的结构重要性评估方法

基于范数的方法

最简单直观的方法是使用权重范数来评估结构重要性：

$s_j^l = \|\mathbf{W}_j^l\|_p$

对于第 $l$ 层的第 $j$ 个卷积滤波器，其 $L_p$ 范数重要性可表示为：

$s_j^l = \left( \sum_{c=1}^{C_{in}} \sum_{h=1}^K \sum_{w=1}^K |W_{j,c,h,w}^l|^p \right)^{1/p}$

当采用混合范数时，可以更精细地捕获结构特性：

$s_j^l = \sum_{c=1}^{C_{in}} \|\mathbf{W}_{j,c,:,:}^l\|_F$

其中 $\|\mathbf{W}_{j,c,:,:}^l\|_F$ 是第 $j$ 个滤波器与第 $c$ 个输入通道连接的卷积核的Frobenius范数。

基于特征图的方法

特征图的统计信息也可用于评估通道重要性：

$s_j^l = \frac{1}{N} \sum_{i=1}^N \|\mathbf{Y}_{j,i}^l\|_1$

引入信息熵测度，可以评估特征图通道的信息量：

$s_j^l = H(\mathbf{Y}_j^l) = -\sum_{h=1}^{H_{out}} \sum_{w=1}^{W_{out}} \sum_{i=1}^N P(\mathbf{Y}_{j,i,h,w}^l) \log P(\mathbf{Y}_{j,i,h,w}^l)$

其中 $P(\mathbf{Y}_{j,i,h,w}^l)$ 是归一化后的激活值概率。

考虑特征图的空间相关性，我们可以引入空间注意力重要性度量：

$s_j^l = \frac{1}{N} \sum_{i=1}^N \left\| \frac{\sum_{h,w} |\mathbf{Y}_{j,i,h,w}^l| \cdot (h,w)}{\sum_{h,w} |\mathbf{Y}_{j,i,h,w}^l|} - \mu_j^l \right\|_2^2$

其中 $\mu_j^l$ 是空间注意力的均值向量。

基于梯度的方法

考虑特征图对损失函数的影响，可以使用梯度信息：

$s_j^l = \left\|\frac{\partial \mathcal{L}}{\partial \mathbf{Y}_j^l}\right\|_F^2$

更深入地，我们可以考虑权重与梯度的乘积：

$s_j^l = \left| \mathbf{W}_j^l \cdot \frac{\partial \mathcal{L}}{\partial \mathbf{W}_j^l} \right| = \left| \sum_{c=1}^{C_{in}} \sum_{h=1}^K \sum_{w=1}^K W_{j,c,h,w}^l \cdot \frac{\partial \mathcal{L}}{\partial W_{j,c,h,w}^l} \right|$

引入二阶信息，可以使用Fisher信息矩阵：

$s_j^l = \mathbf{W}_j^l \cdot \mathbf{F}_j^l \cdot \mathbf{W}_j^l$

其中 $\mathbf{F}_j^l = \mathbb{E}\left[ \left( \frac{\partial \mathcal{L}}{\partial \mathbf{W}_j^l} \right) \left( \frac{\partial \mathcal{L}}{\partial \mathbf{W}_j^l} \right)^T \right]$ 是Fisher信息矩阵。

基于Taylor展开的方法

更复杂的方法利用损失函数对参数的Taylor展开近似：

$\Delta \mathcal{L}(\mathbf{W}_j^l=0) \approx \mathcal{L}(\mathbf{W}) - \mathcal{L}(\mathbf{W}, \mathbf{W}_j^l=0)$

一阶泰勒展开：

$\Delta \mathcal{L}(\mathbf{W}_j^l=0) \approx \mathbf{W}_j^l \cdot \frac{\partial \mathcal{L}}{\partial \mathbf{W}_j^l}$

二阶泰勒展开：

$\Delta \mathcal{L}(\mathbf{W}_j^l=0) \approx \mathbf{W}_j^l \cdot \frac{\partial \mathcal{L}}{\partial \mathbf{W}_j^l} + \frac{1}{2} \mathbf{W}_j^l \cdot \mathbf{H}_j^l \cdot \mathbf{W}_j^l$

其中 $\mathbf{H}_j^l = \frac{\partial^2 \mathcal{L}}{\partial (\mathbf{W}_j^l)^2}$ 是Hessian矩阵。

由于计算完整Hessian矩阵成本高昂，我们可以使用Hutchinson方法近似计算矩阵的迹：

$\text{tr}(\mathbf{H}_j^l) \approx \mathbb{E}_{\mathbf{v} \sim \mathcal{N}(0, \mathbf{I})}[\mathbf{v}^T \mathbf{H}_j^l \mathbf{v}]$

其中 $\mathbf{v}$ 是从标准正态分布采样的随机向量。

资源约束下的全局优化

在资源约束下，简单地对每层独立剪枝可能不是最优策略。全局优化方法考虑各层之间的相互影响：

$\min_{\{\mathbf{M}^l\}_{l=1}^L} \sum_{l=1}^L \sum_{j=1}^{C_l} s_j^l \cdot (1-m_j^l) \quad \text{s.t.} \quad R(\{\mathbf{M}^l\}_{l=1}^L) \leq R_{target}$

这可以通过拉格朗日乘子法转化为：

$\min_{\{\mathbf{M}^l\}_{l=1}^L} \sum_{l=1}^L \sum_{j=1}^{C_l} s_j^l \cdot (1-m_j^l) + \lambda \cdot (R(\{\mathbf{M}^l\}_{l=1}^L) - R_{target})$

其中 $\lambda$ 是拉格朗日乘子，可通过迭代方法求解。

对于多层感知机网络，资源约束（如FLOPs）可以表示为：

$R(\{\mathbf{M}^l\}_{l=1}^L) = \sum_{l=1}^{L-1} \sum_{i=1}^{n_l} \sum_{j=1}^{n_{l+1}} m_i^l \cdot m_j^{l+1}$

其中 $n_l$ 是第 $l$ 层的神经元数量。

网络敏感性分析可以帮助我们判断各层对模型性能的影响。如果移除第 $l$ 层的第 $j$ 个通道，损失函数的期望增量可以表示为：

$\mathbb{E}[\Delta \mathcal{L}_{j}^l] = \mathbb{E}[\mathcal{L}(\mathbf{W}, \mathbf{M} \odot \mathbf{1} - \mathbf{e}_j^l) - \mathcal{L}(\mathbf{W}, \mathbf{M})]$

其中 $\mathbf{e}_j^l$ 是第 $l$ 层第 $j$ 个通道的单位向量。我们可以通过敏感性为权重的优化目标：

$\min_{\{\mathbf{M}^l\}_{l=1}^L} \sum_{l=1}^L \sum_{j=1}^{C_l} \mathbb{E}[\Delta \mathcal{L}_{j}^l] \cdot (1-m_j^l) \quad \text{s.t.} \quad R(\{\mathbf{M}^l\}_{l=1}^L) \leq R_{target}$

在实际操作中，可以通过动态规划解决约束优化问题。定义 $D P [l] [r]$ 为前 $l$ 层在资源约束 $r$ 下的最小损失，状态转移方程为：

$\min_{r_l \leq r} \{DP[l-1][r-r_l] + Loss(l, r_l)\}$

其中 $Loss(l, r_l)$ 是第 $l$ 层在资源约束 $r_l$ 下的最优剪枝损失。

ADMM辅助优化

交替方向乘子法(ADMM)可以有效解决结构化剪枝中的约束优化问题。首先将原问题重新表述为：

$\min_{\mathbf{W}, \mathbf{Z}} \mathcal{L}(\mathbf{W}, \mathcal{D}) \quad \text{s.t.} \quad \mathbf{W} = \mathbf{Z}, \mathbf{Z} \in \mathcal{C}$

其中 $\mathcal{C}$ 是满足结构约束的参数空间。增广拉格朗日函数为：

$\mathcal{L}_{\rho}(\mathbf{W}, \mathbf{Z}, \mathbf{U}) = \mathcal{L}(\mathbf{W}, \mathcal{D}) + \frac{\rho}{2}\|\mathbf{W} - \mathbf{Z} + \mathbf{U}\|_F^2 - \frac{\rho}{2}\|\mathbf{U}\|_F^2$

ADMM将问题分解为交替优化步骤：

更新 $\mathbf{W}$ （网络训练）：
$\mathbf{W}^{k+1} = \arg\min_{\mathbf{W}} \mathcal{L}(\mathbf{W}, \mathcal{D}) + \frac{\rho}{2}\|\mathbf{W} - \mathbf{Z}^k + \mathbf{U}^k\|_F^2$
更新 $\mathbf{Z}$ （结构投影）：
$\mathbf{Z}^{k+1} = \Pi_{\mathcal{C}}(\mathbf{W}^{k+1} + \mathbf{U}^k)$
更新拉格朗日乘子：
$\mathbf{U}^{k+1} = \mathbf{U}^k + \mathbf{W}^{k+1} - \mathbf{Z}^{k+1}$

其中 $\Pi_{\mathcal{C}}$ 是将参数投影到结构约束空间的操作， $\rho$ 是惩罚参数。

对于组稀疏约束，投影操作可以表示为：

$\Pi_{\mathcal{C}}(\mathbf{V}) = \arg\min_{\mathbf{Z}} \|\mathbf{Z} - \mathbf{V}\|_F^2 \quad \text{s.t.} \quad \sum_{j=1}^{C_l} \mathbb{I}(\|\mathbf{Z}_j^l\|_F > 0) \leq (1-r^l) \cdot C_l, \forall l$

这个投影问题可以通过贪心算法求解：对于每层，保留 $\|\mathbf{V}_j^l\|_F$ 最大的 $(1-r^l) \cdot C_l$ 个通道。

ADMM的收敛性可通过定理保证：对于凸目标函数，ADMM在适当条件下以 $O (1/ k)$ 的速率收敛到全局最优解；对于非凸问题，ADMM收敛到局部最优解。收敛条件可以表述为：

$\|\mathbf{W}^{k+1} - \mathbf{W}^{k}\|_F^2 + \|\mathbf{Z}^{k+1} - \mathbf{Z}^{k}\|_F^2 < \epsilon$

资源感知的自动通道剪枝

为了更精确地满足资源约束，可以引入资源感知的自动剪枝框架：

$\min_{\mathbf{W}, \alpha} \mathcal{L}(\mathbf{W}, \alpha, \mathcal{D}) + \lambda \cdot |R(\alpha) - R_{target}|$

其中 $\alpha$ 是可学习的通道重要性参数， $R(\alpha)$ 是基于当前通道配置的资源估计。

具体而言，可以使用Gumbel-Softmax技巧将离散的通道选择转化为可微的形式：

$\hat{\alpha}_j^l = \frac{\exp((\log \alpha_j^l + g_j) / \tau)}{\sum_{j'} \exp((\log \alpha_{j'}^l + g_{j'}) / \tau)}$

其中 $g_j$ 是从Gumbel分布中采样的噪声， $\tau$ 是温度参数，随着训练逐渐降低。

通道配置的软指示函数可以表示为：

$m_j^l(\alpha) = \sigma\left(\gamma \cdot (\alpha_j^l - \beta_l)\right)$

其中 $\sigma$ 是sigmoid函数， $\gamma$ 是缩放因子， $\beta_l$ 是第 $l$ 层的剪枝阈值。

训练过程中，梯度可以通过直通估计器（Straight-Through Estimator, STE）传播：

$\frac{\partial \mathcal{L}}{\partial \alpha_j^l} = \frac{\partial \mathcal{L}}{\partial m_j^l} \cdot \frac{\partial m_j^l}{\partial \alpha_j^l} \approx \frac{\partial \mathcal{L}}{\partial m_j^l} \cdot \mathbb{I}(|\alpha_j^l - \beta_l| < \epsilon) \cdot \gamma \cdot \sigma'(\gamma \cdot (\alpha_j^l - \beta_l))$

资源约束项可以使用可微分资源估计函数：

$R(\alpha) = \sum_{l=1}^L \sum_{j=1}^{C_l} m_j^l(\alpha) \cdot r_j^l$

其中 $r_j^l$ 是第 $l$ 层第 $j$ 个通道的资源占用（如FLOPs、参数量等）。

为处理多种资源约束，可以使用加权约束项：

$\mathcal{L}_{res}(\alpha) = \sum_{i=1}^m \lambda_i \cdot \left| \frac{R_i(\alpha)}{R_{i,target}} - 1 \right|$

知识蒸馏辅助剪枝

知识蒸馏可以辅助结构化剪枝，减轻精度损失：

$\mathcal{L}_{KD} = (1-\beta) \cdot \mathcal{L}_{CE}(\mathbf{W}', \mathcal{D}) + \beta \cdot \mathcal{L}_{distill}(\mathbf{W}', \mathbf{W}, \mathcal{D})$

其中 $\mathcal{L}_{CE}$ 是标准交叉熵损失， $\mathcal{L}_{distill}$ 是蒸馏损失，基本形式可以表示为：

$\mathcal{L}_{distill} = \tau^2 \cdot \text{KL}\left(\sigma\left(\frac{\mathbf{z}}{\tau}\right), \sigma\left(\frac{\mathbf{z}'}{\tau}\right)\right)$

这里 $\mathbf{z}$ 和 $\mathbf{z}'$ 分别是原始模型和剪枝模型的logits， $\sigma$ 是softmax函数， $\tau$ 是温度参数， $\text{KL}$ 是KL散度。

更一般地，KL散度可以表示为：

$\text{KL}(P \| Q) = \sum_{i} P(i) \log \frac{P(i)}{Q(i)} = \sum_{i} P(i) \log P(i) - \sum_{i} P(i) \log Q(i) = -H(P) + H(P, Q)$

其中 $H (P)$ 是分布 $P$ 的熵， $H (P, Q)$ 是 $P$ 和 $Q$ 的交叉熵。

在特征蒸馏中，我们可以使用特征图之间的匹配损失：

$\mathcal{L}_{feat} = \sum_{l \in \mathcal{S}} \left\| \frac{\mathbf{F}_l}{\|\mathbf{F}_l\|_2} - \frac{\mathbf{F}_l'}{\|\mathbf{F}_l'\|_2} \right\|_2^2$

其中 $\mathbf{F}_l$ 和 $\mathbf{F}_l'$ 分别是原始模型和剪枝模型在第 $l$ 层的特征图， $\mathcal{S}$ 是选择用于蒸馏的层集合。

更一般地，我们可以使用Wasserstein距离度量特征分布差异：

$\mathcal{L}_{wass} = \sum_{l \in \mathcal{S}} W_2(\mathbf{F}_l, \mathbf{F}_l')$

其中 $W_2$ 是2阶Wasserstein距离，定义为：

$W_2(\mu, \nu) = \inf_{\gamma \in \Gamma(\mu, \nu)} \left( \int \|x-y\|_2^2 d\gamma(x,y) \right)^{1/2}$

$\Gamma(\mu, \nu)$ 是所有边缘分布分别为 $\mu$ 和 $\nu$ 的联合分布集合。

结构化剪枝的完整算法流程

资源约束下的结构化剪枝的典型算法流程如下：

对预训练模型进行重要性评估： $s_j^l = I(\mathbf{W}_j^l, \mathbf{X}^l, \mathbf{Y}^l)$
根据资源约束 $R_{target}$ ，求解全局优化问题，确定每层的剪枝比例：
$\{\mathbf{M}^l\}_{l=1}^L = \arg\min_{\{\mathbf{M}^l\}} \sum_{l=1}^L \sum_{j=1}^{C_l} s_j^l \cdot (1-m_j^l) \quad \text{s.t.} \quad R(\{\mathbf{M}^l\}) \leq R_{target}$
应用结构掩码生成剪枝后的模型： $\mathbf{W}' = \{\mathbf{M}^l \odot \mathbf{W}^l\}_{l=1}^L$
微调剪枝后的模型，可结合知识蒸馏：
$\min_{\mathbf{W}'} (1-\beta) \cdot \mathcal{L}_{CE}(\mathbf{W}', \mathcal{D}) + \beta \cdot \mathcal{L}_{distill}(\mathbf{W}', \mathbf{W}, \mathcal{D})$

剪枝后网络的理论加速比可以计算为：

$\text{Speedup} = \frac{\sum_{l=1}^L 2 \cdot C_{out}^l \cdot C_{in}^l \cdot K_l^2 \cdot H_{out}^l \cdot W_{out}^l}{\sum_{l=1}^L 2 \cdot C_{out}^{l'} \cdot C_{in}^{l'} \cdot K_l^2 \cdot H_{out}^l \cdot W_{out}^l}$

其中 $C_{out}^{l'}$ 和 $C_{in}^{l'}$ 分别是剪枝后第 $l$ 层的输出和输入通道数。

剪枝算法的收敛性分析可以通过Lyapunov函数进行：定义函数 $V(\mathbf{W}, \mathbf{M}) = \mathcal{L}(\mathbf{W}, \mathbf{M}, \mathcal{D}) + \lambda \cdot R(\mathbf{M})$ ，如果能证明 $V(\mathbf{W}^{k+1}, \mathbf{M}^{k+1}) \leq V(\mathbf{W}^{k}, \mathbf{M}^{k})$ 且 $V$ 有下界，则算法保证收敛。