[cvpr2015]Improving training of deep neural networks via Singular Value Bounding

最新推荐文章于 2021-03-27 16:34:09 发布

MataFela

最新推荐文章于 2021-03-27 16:34:09 发布

阅读量666

点赞数

分类专栏： ML

ML 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

introduction

【training method】
Singular Value Bounding (SVB)：在网络训练过程中，通过将权重矩阵的奇异值限制在1附近，保证权值矩阵的正交性。
Bounded Batch Normalization (BBN)：用SVB的思想对BN的改进，去除了BN的ill-conditioning（ill-conditioning参考）的风险

算法

样本： ${x x i, y y i} K i = 1, x x i \in R N x, y y i \in R N y$ $\{\pmb{x}_i,\pmb{y}_i\}^K_{i=1},\pmb{x}_i \in \mathbb{R}^{N_x},\pmb{y}_i \in \mathbb{R}^{N_y}$
$l^{th}$ 层（共 $L$ 层）输入特征： $x x^{l} = f (z^{l}) = f (W W^{l} x x^{l - 1} + b b^{l}) \in R^{N_{l}}, W W^{l} \in R^{N_{l} \times N_{l - 1}}, b b^{l} \in R^{N_{l}}$ $\pmb{x}^l=f(z^l)=f(\pmb{W}^l \pmb{x}^{l-1}+\pmb{b}^l) \in \mathbb{R}^{N_l},\pmb{W}^l \in \mathbb{R}^{N_l \times N_{l-1}},\pmb{b}^l \in \mathbb{R}^{N_l}$
有一些理论研究显示以正交的随机高斯矩阵初始化网络能够带来更好的表现，作者希望尝试在训练过程当中保持权重矩阵的正交性，具体来说：
$Θ = min {W W l, b b l} L l = 1 L ({x x i, y y i} K i = 1; Θ)$ $\mathbf{\Theta}=\min_{{\{\pmb{W}^l,\pmb{b}^l \}}^L_{l=1}} \mathcal{L}(\{\pmb{x}_i, \pmb{y}_i \}^K_{i=1};\Theta)$
$s . t . \forall l \in {1, . ., L}, W W l \in O$ $s.t. \forall l \in\{1,..,L\}, \pmb{W}^l \in \mathcal{O}$
(其中 $\mathcal{O}$ 指的是那些行向量（或者列向量）相互正交的矩阵的集合，即文中所提的Stiefel流形
通过在执行SGD的同时将权重矩阵的奇异值限制到 $[1/(1+\epsilon),(1+\epsilon)]$ 来完成
SVB:

推导与证明

前向

为了简化，先使用两层神经网络 $\pmb{W}^2 \pmb{W}^1 \pmb{x}$ (忽略bias)，线性激活函数 $f(z)=z$ ，损失函数 $\mathcal{L} = {1 \over 2K} \sum^K_{i=1} ||\pmb{y}_i - \pmb{W}^2\pmb{W}^1\pmb{x}_i ||^2_2$
其中： $| | y y i - W W 2 W W 1 x x i | | 22 = t r [(y y i - W W 2 W W 1 x x i) T (y y i - W W 2 W W 1 x x i)] = t r (y y T i y y i) - t r (y y T i (W W 2 W W 1 x x i)) - t r ((W W 2 W W 1 x x i) T y y i) + t r [(W W 2 W W 1 x x i) T (W W 2 W W 1 x x i)] = t r (y y T i y y i) - 2 t r [(W W 1 x x i) T W W 2 T y y i] + t r [(W W 1 x x i) T (W W 2 T W W 2) (W W 1 x x i)]$ $|| \pmb{y}_i - \pmb{W}^2\pmb{W}^1\pmb{x}_i ||^2_2 = tr[( \pmb{y}_i - \pmb{W}^2\pmb{W}^1\pmb{x}_i)^T( \pmb{y}_i - \pmb{W}^2\pmb{W}^1\pmb{x}_i)] \\ =tr( \pmb{y}_i^T \pmb{y}_i)-tr( \pmb{y}_i^T(\pmb{W}^2\pmb{W}^1\pmb{x}_i)) -tr((\pmb{W}^2\pmb{W}^1\pmb{x}_i)^T\pmb{y}_i) +tr[(\pmb{W}^2\pmb{W}^1\pmb{x}_i)^T(\pmb{W}^2\pmb{W}^1\pmb{x}_i)] \\ =tr( \pmb{y}_i^T \pmb{y}_i) - 2tr[(\pmb{W}^1\pmb{x}_i)^T \pmb{W}^{2T}\pmb{y}_i]+tr[(\pmb{W}^1\pmb{x}_i)^T(\pmb{W}^{2T}\pmb{W}^2)(\pmb{W}^1\pmb{x}_i)]$
上式对 $\pmb{W2}$ 求偏导（矩阵求导可查表(WIKI)）可得:
$0 - 2 y y i (W W 1 x x i) T + (W W 2 T) T (W W 1 x x i) (W W 1 x x i) T + (W W 2 T) T ((W W 1 x x i) T) T ((W W 1 x x i)) T = 2 [- y y i x x T i + W W 2 W W 1 (x x i x x T i)] W W 1 T$ $0 - 2 \pmb{y}_i (\pmb{W}^1\pmb{x}_i)^T + (\pmb{W}^{2T})^T(\pmb{W}^1\pmb{x}_i)(\pmb{W}^1\pmb{x}_i)^T+ (\pmb{W}^{2T})^T( (\pmb{W}^1\pmb{x}_i)^T)^T ((\pmb{W}^1\pmb{x}_i))^T \\ = 2 [-\pmb{y}_i \pmb{x}_i^T + \pmb{W}^2\pmb{W}^1(\pmb{x}_i\pmb{x}_i^T)]\pmb{W}^{1T}$
综上可得：
$\partial L \partial W W 2 = (C C x y - W W 2 W W 1 C C x x) W W 1 T$ ${\partial \mathcal{L} \over \partial \pmb{W}^2} =(\pmb{C}^{xy} -\pmb{W}^2\pmb{W}^1\pmb{C}^{xx}) \pmb{W}^{1T}$
类似地：
$\partial L \partial W W 1 = W W 2 T (C C x y - W W 2 W W 1 C C x x)$ ${\partial \mathcal{L} \over \partial \pmb{W}^1} = \pmb{W}^{2T}(\pmb{C}^{xy} -\pmb{W}^2\pmb{W}^1\pmb{C}^{xx})$
其中：
$C C y x = 1 K \sum i = 1 K y y i x x T t, C C x x = 1 K \sum i = 1 K x x i x x T t$ $\pmb{C}^{yx}={1 \over K}\sum^K_{i=1} \pmb{y}_i\pmb{x}_t^T,\pmb{C}^{xx}={1 \over K}\sum^K_{i=1} \pmb{x}_i\pmb{x}_t^T$
假设输入数据做了白化， $\pmb{c}^{yx}$ 为 $x$ 和 $y$ 的交叉协方差矩阵(cross-covariance matrix，注意到x是zero-mean，不过y应该不会是zero-mean吧。。。就当近似)，而 $\pmb{C}^{xx}=\pmb{I}$
其中，对 $\pmb{c}^{yx}$ 作奇异值分解 $C C y x = U U y S S y x V V x T$ $\pmb{C}^{yx}=\pmb{U}^y\pmb{S}^{yx}\pmb{V}^{xT}$ ，由奇异值分解的性质，左奇异向量组成的 $\pmb{U}^y \in \mathbb{R}^{N_y \times N_y}$ 表示了输出空间 $\mathbb{R}^{N_y}$ 内的一组基底（文中：represent independent directions of output
variations），右奇异向量组成的 $\pmb{V}^x \in \mathbb{R}^{N_x \times N_x}$ 则表示了输入空间 $\mathbb{R}^{N_x}$ 的一组基底， $\pmb{S}_{yx} \in \mathbb{R}^{N_y \times N_x}$ 是包含了排序过的奇异值的对角矩阵
再对 $\pmb{W}^1$ 和 $\pmb{W}^2$ 作初始化为：
$W W 1 = R R S S 1 V V x T, W W 2 = R R S S 2 V V x T$ $\pmb{W}^1=\pmb{R}\pmb{S}^1\pmb{V}^{xT},\pmb{W}^2=\pmb{R}\pmb{S}^2\pmb{V}^{xT}$
其中， $\pmb{R} \in \mathbb{R}^{N_1 \times N_1}$ 是一个任意的正交矩阵，并且在训练过程当中保持不变。 $\pmb S^1$ 和 $\pmb S^1$ 都为对角矩阵
损失函数的偏导即是：
$\partial L \partial W W 1 = R R S S 2 T (S S y x - S S 2 S S 1) V V x T \partial L \partial W W 2 = U U y (S S y x - S S 2 S S 1) S S 1 T R R T$ ${\partial \mathcal{L} \over \partial \pmb{W}^1} = \pmb{R}\pmb{S}^{2T}(\pmb{S}^{yx}-\pmb{S}^2\pmb{S}^1)\pmb{V}^{xT} \\ {\partial \mathcal{L} \over \partial \pmb{W}^2} = \pmb{U}^{y}(\pmb{S}^{yx}-\pmb{S}^2\pmb{S}^1)\pmb{S}^{1T}\pmb{R}^T$
当 $\pmb R$ 给定的时候，能够保证 $\pmb{W}^1$ 和 $\pmb{W}^2$ 沿着他们各自的基地变化(
are optimized along their respective independent
directions of variations. )
记 $s_m$ 、 $t_m$ 和 $\sigma_m$ 分别为 $\pmb S^1$ 、 $\pmb S^1$ 和 $\pmb S^{yx}$ 的第m个对角元素，那么有:
$\partial L \partial s m = (σ m - s m t m) t m, \partial L \partial t m = (σ m - s m t m) s m$ ${\partial \mathcal{L} \over \partial s_m} =(\sigma_m - s_mt_m)t_m,{\partial \mathcal{L} \over \partial t_m} =(\sigma_m - s_mt_m)s_m$
（忽略常数部分）
其中， $\mathcal L$ 可以和能量函数
$ε (s m, t m) = 1 2 (σ m - s m t m) 2$ $\mathcal{\varepsilon}(s_m,t_m)={1 \over 2}(\sigma_m-s_mt_m)^2$ 进行类比，
从这里可以清楚地看出，式
$s m t m$ $s_mt_m$
正朝着 $\sigma_m$ 的方向优化。
将上述分析拓展到 $L$ 层：

其中， $\pmb{W}^l=\pmb{R}^l\pmb{S}{\pmb{R}^{l+1}}^T$ ，权值矩阵的右奇异向量会作为下一层矩阵的左奇异向量，但是Algorithm 1（SVB）中并未做到这一点

（注： $\sigma_M$ 在给定训练数据时已经确定）
易证，当 $L$ 很大的时候，如果所有奇异值 $s^l_m$ 没有落在1附近，则式（10）是不能收敛的。
作者认为，由于目前的训练方法中没有对权值矩阵奇异值做出限制，因此所有层的权值矩阵能够在任意层和方向上放大或者缩小，导致结果容易陷入局部最小，使得仅仅只有一部分的输入-输出互相关关系（input-output correlations，我认为就是前文的矩阵 $\pmb{C}^{yx}$ 中的向量）被使用到。
考虑一个两层模型 $\pmb{W}^{l+1} \pmb{W}^l$ ，做奇异值分解，有: $W W l + 1 W W l = U U l + 1 S S l + 1 V V l + 1 T U U l S S l V V l T$ $\pmb{W}^{l+1} \pmb{W}^l=\pmb{U}^{l+1}\pmb{S}^{l+1}{\pmb{V}^{l+1 }}^T\pmb{U}^{l}\pmb{S}^{l}{\pmb{V}^{l}}^T$ ，
记 $M M = S S l + 1 V V l + 1 T U U l S S l$ $\pmb{M}=\pmb{S}^{l+1}{\pmb{V}^{l+1 }}^T\pmb{U}^{l}\pmb{S}^{l}$ ，其中该矩阵第 $m$ 行 $m^{'}$ 列元素可记为：
$M M m, m' = s l + 1 m s l m (v v l + 1 m T u u l m')$ $\pmb{M}_{m,m^{'}}=s_m^{l+1} s_m^l ({\pmb{v}_m^{l+1}}^T\pmb{u}_{m^{'}}^l)$
式中 $({\pmb{v}_m^{l+1}}^T\pmb{u}_{m^{'}}^l)$ 表示 $l$ 层和 $l+1$ 层之间的基底坐标变换（即表示了第l层ouput space第 $m^{'}$ 个基上的变动与第(l+1)层input space第 $m$ 个基上的变动的混合）
Algorithm 1（SVB）能够通过限制 $s_m^l$ 和 $s_m^{l+1}$ ，保证信号的变动从上一层传向下一层时，各个方向的强度更加适当（我的理解是避免了ill-conditioning的出现）。作者认为没有这些限制以后，一些方向的变动会被过度放大，使得别的方向的变动被缩小很多。

反向

记 $\pmb{W}^i=\pmb{R}^i\pmb{S}{\pmb{R}^{i+1}}^T$ ，则有：

当网络很深的时候，容易发生 $\prod^L_{i=l+1} s^i_m$ 的explode or vanish，导致最终的梯度爆炸和梯度消失。而作者的SVB能够避免这一情况的出现
（理想的情况下，SVB能够保证各层输入对 $\mathcal L$ 的偏导后的范数和error vector $\pmb{x}^L$ 对 $\mathcal L$ 的偏导后的范数一致）

与BN的兼容（BBN，Bounded Batch Normalization）

BN引入了一个深层神经网络训练的问题：internal covariate shift（因各层输入的分布持续变化导致训练很慢），通过加入BN层能够缓解这一状况。
对于一层 $f(\pmb{z})=f(\pmb{Wx}) \in \mathbb{R}^N$ ，如果在激活函数之前加入BN，即 $f(BN(\pmb{z}))=f(BN(\pmb{Wx}))$ ,其中：

$B N (z z) = Γ Σ (z z - μ μ) + β β$ $BN(\pmb{z})=\Gamma \Sigma(\pmb{z}-\pmb{\mu})+\pmb{\beta}$

(zero-mean)： $\pmb{\mu} \in \mathbb{R}^N为层上单个神经元的输出的均值（共N个）$
(norm->1)： $\Sigma \in \mathbb{R}^{N \times N}$ 为对角矩阵，对角元素 $\{ 1/\varsigma_i \}^N_{i=1}$ 为单个神经元输出的标准差再加一个小常数的倒数
(scale)： $\Gamma \in \mathbb{R}^{N \times N}$ 为包含展缩(scale)元素 $\{ \gamma_i \}^N_{i=1}$ 的度角矩阵
(shift)： $\pmb\beta$ 为可训练的偏置项
带入 $\pmb{ z=Wx}$ ：

$B N (x x) = W W ˜ x x + b b ˜ ， s . t . W W ˜ = Γ Σ W W ， b b ˜ = β β - Γ Σ μ μ$ $BN(\pmb{x})=\widetilde{\pmb{W}}\pmb{x}+\widetilde{\pmb{b}}，s.t.\widetilde{\pmb{W}}=\Gamma \Sigma\pmb{W}，\widetilde{\pmb{b}}=\pmb{\beta}-\Gamma \Sigma\pmb{\mu}$ ，其中对角矩阵 $\Gamma \Sigma$ 有对角元素 $\{\gamma_i/\varsigma_i\}^N_{i=1}$
由引理1：

可知矩阵 $\Gamma$ 和 $\Sigma$ 在BN中都能够使信号在层与层的传递中分布发生改变，当对角矩阵 $\Gamma \Sigma$ 的对角元素 $\{\gamma_i/\varsigma_i\}^N_{i=1}$ 同时偏离1比较远时，梯度爆炸/梯度弥散很容易出现了。
为了避免这种状况，作者打算将 $\{\gamma_i/\varsigma_i\}^N_{i=1}$ 限制在1附近，但是这样作会抹消BN的一个优点（ $\Gamma$ 和 $\beta$ 的存在能够使得BN在特定情况下退化为近似的恒定变换（ $\gamma_i \approx \varsigma_i$ ，即消除BN的作用））
BN中，解耦出的 $\{ \gamma_i \}^N_{i=1}$ 能够显著地提升网络的适应性，受次启发，作者再引入一个解耦参数 $\alpha$ ，使得SVB能够与BN算法兼容，即用 $\{{1 \over \alpha}\gamma_i/\varsigma_i\}^N_{i=1}$ 替代 $\{\gamma_i/\varsigma_i\}^N_{i=1}$ ，将 $\{{1 \over \alpha}\gamma_i/\varsigma_i\}^N_{i=1}$ 在训练过程当中限制到 $[1/(1+\epsilon),(1+\epsilon)]$
BBN:

Experiment

作者在：

CIFAR 10
CIFAR 100
ImageNet

数据集上，使用

标准的卷积神经网络
ResNets
Wide ResNets

对算法SVB和BBN做了测试
（作者的实验结果表示当网络较深的时候，BBN确实表现的比普通的BN更加优秀）

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

MataFela

关注关注

0
点赞

踩

2

收藏

觉得还不错? 一键收藏

2
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

TRAINING DEEP NEURAL NETWORKS WITH LOW PRECISION MULTIPLICATIONS

cdknight_happy的专栏

05-10 598

文章：https://arxiv.org/abs/1412.7024 0 摘要乘法器是深度神经网络数字实现中空间和功耗最大的算术运算符。我们在三个基准数据集上训练了一套最先进的神经网络（Maxout网络）：MNIST，CIFAR-10和SVHN。它们采用三种不同的格式进行训练：浮点，固定点和动态固定点。对于每个数据集以及每种格式，我们评估乘法的精确度对训练后最终误差的影响。我们发现，非常低的精度...

CVPR2017 all paper list

一亩半分地

07-26 2万+

本文给出了CVPR2017的最新的paperlist

2 条评论您还未登录，请先登录后发表或查看评论

论文阅读笔记 Improving Robustness of DNNs against Common Corruptions via Gaussian Adversarial Training

qq_28234239的博客

12-24 278

摘要深度神经网络在图像分类上表现的很好，但是测试数据稍有不同的时候，分类会有很大的下降。为了解决这个问题，通过高斯对抗训练，文章提出了鞍点方法来提高模型的健壮性。通过对抗的样本来训练，这些对抗样本的扰动呈高斯分布 pass ...

论文阅读：CVPR2016 Paper list

热门推荐

一亩半分地

05-12 8万+

CVPR2016 accepted paper list

利用误分类样本来防御对抗样本

XP and Altoria

03-14 636

来自于ICLR2020的一篇paper – Improving Adversarial Robustness Requires Revisiting Misclassified Examples 其中作者有北大的王奕森，在对抗样本这块工作比较多大家可以关注一下。防御对抗样本在深度学习里面一直是件难办的事，目前都没有什么特别有效的方法，我今天介绍这篇也不能完美解决这个问题，只希望提供一些一些有趣的思路给大家。首先，文章进行了一个小的实验，可以说是一个有意思的观察。作者首先讲正确分类的样本集合记做S+S^

DeepPose: Human Pose Estimation via Deep Neural Networks

06-05

《DeepPose ： Human Pose Estimation via Deep Neural Networks 》原始论文，其为第一篇应用深度神经网络于姿态估计领域（Human Pose Estimation）的文章。发表于CVPR2014。

cvpr2012-Multi-column Deep Neural Networks for Image

03-17

《多列深度神经网络在图像分类中的应用》(cvpr2012-Multi-column Deep Neural Networks for Image Classiﬁcation) 这篇论文由Dan Cires¸an、Ueli Meier和J¨urgen Schmidhuber共同撰写，来自瑞士IDSIA-USI-SUPSIG...

【CVPR2018】A Constrained Deep Neural Network for O

06-14

【CVPR2018】A Constrained Deep Neural Network for Ordinal Regression是计算机视觉领域的一篇研究论文，发表于2018年的计算机视觉与模式识别会议（CVPR）。这篇论文探讨了如何利用深度学习技术解决有序回归问题，...

A-Convolutional-Neural-Network-Cascade-for-Face-Detection:TensorFlow实现“用于面部检测的卷积神经网络级联”，CVPR 2015

05-17

用于人脸检测的卷积神经网络级联此回购是TensorFlow中重新实现。开始准备资料下载AFLW数据集（正）和COCO数据集（负）进行训练。可以使用任何其他数据集代替负数的COCO数据集。下载FDDB数据集进行测试。...

【论文笔记06】Domain-Adversarial Training of Neural Networks, JMLR 2016

weixin_45632492的博客

03-27 1636

目录导引系列传送Domain-Adversarial Training of Neural Networks1 AbstractReference 系列传送【Active Learning】【论文笔记01】Learning Loss for Active Learning, CVPR 2019 【论文笔记02】Active Learning For Convolutional Neural Networks: A Core-Set Approch, ICLR 2018 【论文笔记03】Variation

科研篇二：对抗样本（Adversarial Example）综述

weixin_38316806的博客

10-10 7289

文章目录一、写作动机与文献来源二、术语定义2.1.对抗样本/图片（Adversarial Example/Image）2.2.对抗干扰（Adversarial perturbation）2.3.对抗训练（Adversarial Training）2.4.对抗方（Adversary）2.5.黑盒攻击（Black-box attacks）2.6.探测器（Detector）2.7. 愚弄率（Foolin...

论文阅读笔记-----Single-frame Regularization for Temporally Stable CNNs

qq_25283239的博客

02-21 1177

Eilertsen G, Mantiuk R K, Unger J. Single-frame Regularization for Temporally Stable CNNs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 11176-11185. 摘要： ...

科研篇一：NeurIPS2019 分类整理-对抗样本&Meta-Learning

weixin_38316806的博客

09-08 6238

文末获取paper整理资源，NIPS2019对抗样本&Meta-Learning

深度学习的黑魔法防御术：恶意样本（Adversarial Example）的防御策略综述

白马负金羁

12-30 6169

随着深度学习研究的深入，相关应用已经在许多领域展现出惊人的表现。一方面，深度神经网络（DNN）的强大能力着实吸引着学术界和产业界的眼球。另外一方面，深度学习的安全问题也开始引起广泛地关注。对于一个给定的深度神经网络，经过训练，它可能在具体任务上的表现出甚至超过人类。但是在原本能够被正确分类的图像中引入稍许（人眼不易察觉的）扰动，神经网络就可能被误导，从而导致错误的结果。经过精心调整的能够误导神经网络的输入就被称为是恶意样本（Adversarial Example）

HNU-ES实验一（步进电机）

10-13

HNU-ES实验一（步进电机）

scandir-1.10.0-cp38-cp38-win_amd64.whl

10-13

scandir-1.10.0-cp38-cp38-win_amd64.whl

【图像配准】基于matlab GUI Powell+蚁群算法图像配准【含Matlab源码 928期】.md

10-13

CSDN Matlab武动乾坤上传的资料均有对应的代码，代码均可运行，亲测可用，适合小白； 1、代码压缩包内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主或扫描博客文章底部QQ名片； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作图像配准：SAR-SIFT改进的SAR图像配准、SIFT图像配准拼接、Powell+蚁群算法图像配准、Harris+SIFT图像配准、OpenSUFT图像配准、图像互信息值图像配准

《Machine Learning》课程PPT-吴恩达09

最新发布

10-13

人工智能 Neural Networks: Learning 1、Cost function 2、Backpropagation algorithm 3、Backpropagation intuition 4、Implementation note: Unrolling parameters 5、Gradient checking 6、Random initialization 7、Putting it together 8、Backpropagation example: Autonomous driving (optional)