【深度学习】Weight Normalization: 一种简单的加速深度网络训练的重参数方法

前言:为什么要Normalization

深度学习是一种在给定数据的情况下,学习求解目标函数最小化或者最大化的模型。在深度网络中,模型参数往往包含了大量的weights和biases。在求解优化模型的时候,通常是利用一阶梯度的求解来更新网络的权重。

众所周知,优化深度网络时需要通过计算一阶梯度,而目标函数的曲率会极大的影响优化的难易度。如果目标函数的Hessian矩阵的条件数太低,将会表现出一种病理曲率的问题,其结构就是早晨一阶梯度下降会遇到问题。
(注:条件数:在数值分析领域,一个函数关于一个参数的条件数(Condition Number)测量了函数的输出值相对于输入参数的变化强度。这用来测量一个函数相对于输入变化或误差有多敏感,以及输出结果相对于输入中的误差的误差变化。)

然而一个目标函数的曲率并不是对重参数不变的,因此可以采取相同模型中多种等效的重参数方法来使得目标函数的优化空间的曲率更加的平滑。寻找一种好的重参数方法在深度学习中起着至关重要的作用。

(这里插一句题外话,作为CV领域常用的normalization, Batch Normalization,一开始Google在2013的论文声称其本质是解决ICS问题,然而最新的论文表明BN并没有解决ICS问题,其解决的是对目标函数空间增加了平滑约束,从而使得利用更大的学习率获得更好的局部优解)

Weight Normalization

对于人工神经网络中的一个神经元来说,其输出 y y y表示为:
y = ϕ ( w x + b ) y=\phi(\bm{wx}+b) y=ϕ(wx+b)
其中 w \bm{w} w是k维权重向量, b b b是标量偏差, x \bm{x} x是k维输入特征, ϕ ( . ) \phi(.) ϕ(.)是激活函数。

WN的重参数表示:对权重 w \bm{w} w用参数向量v和标量g进行表示,则新参数表示为:
w = g ∥ v ∥ v \bm{w}=\frac{g}{\|\bm{v}\|}\bm{v} w=vgv
其中 v \bm{v} v是k维向量,g是标量, ∥ v ∥ \|\bm{v}\| v v \bm{v} v的欧式范数。我们注意到,此时 w \bm{w} w则被重参数为 v \bm{v} v和g两个参数。
通过上述重参数表示,我们可以发现 ∥ w ∥ = g \|\bm{w}\| =g w=

好的,神经网络深度学习CNN(卷积神经网络)各参数的介绍如下: 1. 卷积核(Kernel/Filter):卷积核是CNN的核心组成部分,用于提取图像特征。卷积核是一个小的矩阵,可以是1x1、3x3、5x5等大小,它在图像上滑动,对每个区域进行卷积操作,得到一个特征图。 2. 步长(Stride):步长指卷积核每次滑动的距离。一般来说,步长越大,特征图的大小就会变小。 3. 填充(Padding):填充指在原始图像周围添加一圈像素,以便更好地处理图像边缘部分。常见的填充方式有Valid Padding(不填充)、Same Padding(对称填充)和Full Padding(全填充)。 4. 激活函数(Activation Function):激活函数用于增加CNN的非线性性,使其可以学习更复杂的特征。常见的激活函数包括ReLU、Sigmoid、Tanh等。 5. 池化(Pooling):池化用于对特征图进行降维处理,以减少计算量和参数数量。常见的池化方式有Max Pooling、Average Pooling等。 6. 批归一化(Batch Normalization):批归一化是一种用于加速神经网络训练的技术,它可以使每一层的输入数据都经过标准化处理,从而加速训练过程。 7. 优化器(Optimizer):优化器用于更新神经网络中的参数,使其能够更好地拟合训练数据。常见的优化器包括SGD、Adam、Adagrad等。 8. 损失函数(Loss Function):损失函数用于评估神经网络的性能,它通常是一个标量,用于表示网络预测值与真实值之间的差异。常见的损失函数包括交叉熵、均方误差等。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值