ICML2020|Channel Equilibrium Network for Learning Deep Representation

最新推荐文章于 2024-08-17 08:45:02 发布

进阶_

最新推荐文章于 2024-08-17 08:45:02 发布

阅读量280

点赞数

分类专栏：深度学习文章标签：算法深度学习

本文链接：https://blog.csdn.net/Freedom_sky_/article/details/119428005

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

论文地址：https://arxiv.org/pdf/2003.00214.pdf
代码地址：Tangshitao/CENet

一、动机——解决 inhibited channels

The lottery hypothesis (Frankle & Carbin, 2018) 认为：若CNN模型的参数太多，网络的feature map中将存在很多不重要的 (inhibited) 通道——其特征值 extremely small.

作者以 batch normalization 算法为例：

(1) 对网络某一层的输出做归一化处理： $\bar{x}_{ncij} = (x_{ncij}-\mu_{k}) / \sigma_{k}$

(2) 变换重构(引入可学习参数 $\gamma$ 和 $\beta$ )： $\tilde{x}_{ncij} = \gamma_{c}\bar{x}_{ncij}+\beta_{c}$

其源码实现：

# https://blog.csdn.net/hjimce/article/details/50866313
m = K.mean(X, axis=-1, keepdims=True)#计算均值
std = K.std(X, axis=-1, keepdims=True)#计算标准差
X_normed = (X - m) / (std + self.epsilon)#归一化
out = self.gamma * X_normed + self.beta#重构变换

产生inhibited channels的条件：

对于随机变量 $z\sim N(0, 1)$ 且 $y=max\{0, \gamma_{c}z + \beta_{c}\}$ ，当且仅当 $\beta_{c} \leqslant 0, \gamma_{c} \rightarrow 0$ 时，有 $\Xi_{z}[y] = 0, \Xi_{z}[y^{2}] = 0$ .

由条件可知，normalization操作与激活函数（如ReLU）同时作用，便会产生inhibited channels。因此作者提出在归一化与激活函数之间添加一个Channel Equilibrium层（简称为CE层），以期望每一层网络中的每个通道都能平等地参与到特征表达中。

对于常规的训练网络（如下图所示），经过BN层和激活函数后存在很多的 inhibited channels。而在BN层后添加CE层、在激活函数前添加CE层能显著减少inhibited channels的占比。
在这里插入图片描述

二、核心——Channel Equilibrium模块

1、CE函数

目的： 让每一个通道都尽可能最大化地参与到特征表达中。

重写normalization部分的重构公式：
$\tilde{x}_{ncij} = \gamma_{c}\bar{x}_{ncij}+\beta_{c}$
得到CE模块的公式：
$p_{nij} = D_{n}^{-\frac{1}{2}}(Diag(\gamma)\bar{x}_{nij} + \beta) \\ D_n = \lambda \Sigma + (1-\lambda )Diag(\nu _n) \\ \nu _n = f(\tilde{\sigma}_n^2)$
其中：

(1) $\gamma \in \mathbb{R}^{C \times 1}, \beta\in \mathbb{R}^{C \times 1}$ ；

(2) $Diag(\gamma)$ ：使用 γ 作为对角元素的对角矩阵；

(3) $\bar{x}_{nij}$ ：第n个样本在位置 $(i, j)$ 下的所有通道构成的向量；

(4) $D_{n}^{-\frac{1}{2}}$ ：最主要的操作——decorrelation operator；

(5) $\sum$ ： mini-batch中归一化之后的每个样本之间的协方差矩阵；

(6) $\nu _n \in \mathbb{R}^{C \times 1}$ ：第n个样本所有通道的一个自适应的实例方差（the adaptive instance variances）；

(7) $\tilde{\sigma}_n^2 \in \mathbb{R}^{C \times 1}$ ：第n个样本归一化后的 $\tilde{x}_{n}$ （此处应该指 $\bar{x}_{n}$ ）的所有通道的方差

以上三个式子中比较复杂的计算量来自于 $D_{n}^{-\frac{1}{2}}$ 。

2、近似估计

由上式可知：
$D_n^{-\frac{1}{2}} = (\lambda \Sigma + (1-\lambda )Diag(\nu _n))^{-\frac{1}{2}}$
已知 $f(x)=x^{-\frac{1}{2}}$ 为凸函数，故其满足矩阵的杰森不等式，上式可以近似如下：
$D_n^{-\frac{1}{2}} \preceq \lambda \Sigma^{-\frac{1}{2}} + (1-\lambda )[Diag(\nu _n)]^{-\frac{1}{2}}$
where $\preceq B$ , indicates $B - A$ is semi-definite positive.

接下来，计算量被分解为 batch decorrelation 分支（即BD分支）和 instance reweighting 分支（即IR分支）。

其具体的网络结构如下：
在这里插入图片描述

3、BD分支—— $\Sigma^{-\frac{1}{2}}$

常规的计算协方差采用特征值分解或SVD分解，本文采用牛顿迭代法 (Huang et al., 2018)，迭代次数为3。

(1) 将特征 $x$ 归一化后，可以获得其协方差矩阵：

$\Sigma = \gamma \gamma^{T} \odot \frac{1}{M}\bar{x}\bar{x}^{T} \\ \bar{x}\in \mathbb{R}^{C \times M},\, \, M = N*H*W$
其中， $\Sigma_{ij}$ 表示第i个通道和第j个通道间的依赖关系，它在归一化后由 $\gamma_i \gamma_j$ 进行尺度缩放。
为了满足牛顿迭代法的条件： $||I-\Sigma ||_2<1$ ， $\Sigma$ 被归一化为 $\Sigma /tr(\Sigma )$ ，归一化的协方差矩阵写作：
$\Sigma = \frac{\gamma \gamma^{T}}{||\gamma||_2^2} \odot \frac{1}{M}\bar{x}\bar{x}^{T} \\$

(2) 而后对协方差矩阵 $\Sigma$ 采用牛顿迭代法：

${\Sigma }_0 = I \\ {\Sigma}_k = \frac{1}{2}(3{\Sigma}_{k-1}-\Sigma_{k-1}^3\Sigma ),\, k=1,2,...,T.$

4、IR分支—— $[Diag(\nu _n)]^{-\frac{1}{2}}$

迭代公式：
$IR的输入：\tilde{\sigma}_n^2 = diag(\gamma \gamma^{T})\odot \frac{(\sigma_{IN}^2)_n}{\sigma_{BN}^2} \\ [Diag(\nu _n)]^{-\frac{1}{2}} = Diag(Sigmoid(\tilde{\sigma}_n^2; \theta)) \cdot s^{- \frac{1}{2}} \\ s = \frac{1}{NC}\sum _{n, c}^{N,C}(\tilde{\sigma}_n^2)$
其中 $\sigma_{IN}^2$ 表示IN计算所得的方差； $\sigma_{BN}^2$ 表示IN计算所得的方差； $\theta$ 为SENet和GC block所获得的参数，用来反映通道间的依赖。GC block如下：

在这里插入图片描述

5、分析

上文可知，inhibited channels的特征： $\beta_{c} \leqslant 0, \gamma_{c} \rightarrow 0$ 。而BD分支的作用：改变normalization中 $\gamma$ 的值。
将CE模块的公式分解到BD分支可得：
$p_{nij}^{BD} = Diag(\Sigma^{-\frac{1}{2}}\gamma)\bar{x}_{nij} + \Sigma^{-\frac{1}{2}}\beta$
将BD分支与Normalization的公式对应：
$\tilde{x}_{ncij} = \gamma_{c}\bar{x}_{ncij}+\beta_{c}$
相当于构造了等价的 $\gamma$ ： $\hat{\gamma} = \Sigma ^{-\frac{1}{2}}\gamma$ 。由此论文中如下部分可知： $\gamma$ 的值一定增大。
在这里插入图片描述

三、实验

CE与SENet的结果对比

在这里插入图片描述

消融实验

在这里插入图片描述

进阶_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ICML2020|Channel Equilibrium Network for Learning Deep Representation

论文地址：https://arxiv.org/pdf/2003.00214.pdf代码地址：Tangshitao/CENet一、动机——解决 inhibited channelsThe lottery hypothesis (Frankle & Carbin, 2018) 认为：若CNN模型的参数太多，网络的feature map中将存在很多不重要的 (inhibited) 通道——其特征值 extremely small.作者以 batch normalization 算法为例：(1.
复制链接

扫一扫