Paper Reading 《Decorrelated Batch Normalization》

最新推荐文章于 2023-05-19 21:25:49 发布

SUFEHeisenberg

最新推荐文章于 2023-05-19 21:25:49 发布

阅读量502

点赞数

分类专栏： Deep Learning Paper Reading

本文链接：https://blog.csdn.net/weixin_43557139/article/details/116465198

版权

Paper Reading 同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

Deep Learning

13 篇文章 0 订阅

订阅专栏

Paper Reading: DBN

Decorrelated Batch Normalization

CVPR2018. Github(Written in Lua). Paper.

1. Intuition

Ioffe & Szegedy(2017) 提出的Batch Normalization:

$\hat{x_i}=\gamma\frac{x_i-\mu}{\sqrt{\sigma^2+\epsilon}}, \quad\text{where}\quad\mu=\frac{1}{m}\sum_{j=1}^m\mu_j,\sigma^2=\frac{1}{m}\sum_{j=1}^m(x_j-\mu)^2$

但是最关键的问题是 $m$ 个维度之间关联度较高。

因此本文从ZCA白化入手提出了DBN, i.e. Decorrelated Batch Normalization：

$\hat{x_i}=\Sigma^{-\frac{1}{2}}(x_i-\mu)$

实现DBN的四个问题？

DBN如何进行反馈传播？
为何选ZCA不选PCA？
如何计算 $\Sigma^{-\frac{1}{2}}$ 矩阵？
白化操作的样本量如何确定？

2. 算法细节

2.1 Notation

令 $\mathbf{X}\in\mathbb{R}^{d\times m}$ , $d$ 为维度， $m$ 为mini-batch的大小，白化变换 $\phi:\mathbb{R}^{d\times m}\rightarrow\mathbb{R}^{d\times m}$ 可定义为：
$\phi(\mathbf{X})=\Sigma^{-\frac{1}{2}}(\mathbf{X}-\mu\cdot\mathbf{1}^T)$
其中 $\mu=\frac{1}{m}\mathbf{X}\cdot\mathbf{1},\Sigma=\frac{1}{m}(\mathbf{X}-\mu \cdot\mathbf{1}^T)(\mathbf{X}-\mu \cdot\mathbf{1}^T)^T+\epsilon\cdot\mathbf{I}$ 。白化之后目的是 $\hat{\mathbf{X}}=\phi(\mathbf{X})\quad s.t. \hat{\mathbf{X}}\hat{\mathbf{X}}^T=I$

那实现DBN该如何解决上述四个问题呢？

2.2 随机轴交换

$\Sigma^{-\frac{1}{2}}_{PCA}=\Lambda^{-\frac{1}{2}}\mathbf{D}$

正交特征向量 $\mathbf{D}=[\mathbf{d}_1,\cdots,\mathbf{d}_d]$ 是理论上是不能够被唯一确定的，但是PCA就选定了 $\Lambda$ 按照 $\sigma_1,\cdots,\sigma_d$ 从大到小的顺序进行排列，即旋转坐标轴到方差最大的方向。

但是恰恰是由于PCA总是选取方差最大的方向，而神经网络的激活数值会随权重更新而改变，这使得其在不同的batch、iteration的过程中的所旋转的坐标轴方向也都是不同的，也就是所说的stochastic axis swapping。这也导致了如下的loss震荡、收敛效果差的问题：

2.3 ZCA白化的BP反向传播过程实现

公式推导+解释

鉴于上述情况选取ZCA白化 $\Sigma^{-1/2}_{ZCA}=\mathbf{D}\Lambda^{-\frac{1}{2}}\mathbf{D}^T$ .

那么ZCA白化后续的梯度下降的反向传播就应当如下所示：

2.3.1 Forward Pass (Appendix A.1)

从 $x_j\rightarrow\hat{x_j}$

2.3.2 Back Propagation (Appendix A.2)

BP过程从 $L\rightarrow x_i$

简化版本：
$\frac{\partial L}{\partial \mathbf{x}_{i}}=\left(\frac{\partial L}{\partial \tilde{\mathbf{x}}_{i}}-\mathbf{f}+\tilde{\mathbf{x}}_{i}^{T} \mathbf{S}-\tilde{\mathbf{x}}_{i}^{T} \mathbf{M}\right) \Lambda^{-1 / 2} \mathbf{D}^{T}\\$

2.4 算法流程

在每一轮训练中的前馈传播和反馈传播的伪算法。

2.4.1 前馈传播算法

白化是发生在每一个mini-batch中的， $\mu$ 和 $\Sigma$ 在每一个batch中都是迭代更新的。

在Forward Pass中先计算PCA，ZCA也是在PCA基础上计算得到。（与直接用 $W_{zca}=\Sigma^{-1/2}$ 相比，不知数值上有区别否？）
步骤10&11的 $\lambda$ 就是个相同的超参，不是严格的moving average迭代更新 $\mu_{n+1}=\frac{n}{n+1}\mu_n+\frac{1}{n+1}X_{n+1}$

2.4.2 反向传播算法

值得一提的是，在CNN算法中，DBN的输入形如 $\mathbf{X}_C\in\mathbb{R}^{h\times w\times d\times m}$ ， $h, w$ 分别表示feature map的维度(height $\times$ width)， $d, m$ 分别表示feature maps的数量和batch中样本的数量。

2.5 组白化

为了保证每个batch中有足够的样本数量来做白化操作，我们将激活层数值沿特征维度 $d$ ，划分成 $k_G(k_G<d)$ 个较小的组(防止出现batch样本数 $m < < d$ 的情况)，并在每个组中进行白化。 $k_G=1$ 时，DBN退化为BN。此时计算复杂度从 $O(d^2\max(m,d))$ 降至 $O(\frac{d}{k_G}(k_G^2(\max(m,k_G))))$ ，通常，我们选择 $k_G<m$ ，此时组白化计算复杂度为 $O(mdk_G)$ 。