神经网络设计——基本原则

写在前面

在深度学习领域,无论是进行相关实验,或是参加实际项目,设计神经网络永远是最不起眼但最实际的问题。本文记录了笔者在研究及实验过程中积累的神经网络设计、训练相关经验,在此整理供后续的迭代研究使用。

卷积核的选取(CNN)

卷积在神经网络中有助于提高网络输出的语义解释性。在CNN中,卷积核通常选取方式如下:

paddingkernel_size
13*3
25*5
37*7

使用小核卷积通常有助于提升网络的性能。

卷积核的个数(CNN)

卷积核的个数通常为2的次方数,常用的卷积核个数序列为:32、64、128、512

步长(CNN)

步长通常与图像的分辨率有关,较小的步长通常会带来较少的参数,使得网络更新参数时速度更快。

激活函数的选取

神经网络的常用激活函数可以分为以下几种:

  1. 饱和式激活函数:tanh()、sigmoid()
  2. 非饱和式激活函数:ReLU()、LeakyReLU()

在目前的大多数研究中,饱和式的激活函数虽然可导性优越,但常常会导致梯度消失,在训练过程中造成大量神经元死亡。

而非饱和式的激活函数则可以有效地避免这种问题,ReLU是最常用的激活函数,在生物学上也拥有良好的可解释性。但ReLU是比较激烈的激活函数,在小于0的半段仍然有导致梯度消失的风险。

相比之下,LeakyReLU更加柔和,通常情况下可以稳定地提供梯度,从一定程度上抑制神经元死亡失效。

通常的选取方法是先用ReLU,再尝试其他类型。

在需要对输出做概率化处理时,使用softmax。

卷积和反卷积的公式(CNN)

在CNN的设计中,卷积和反卷积时图像经过的变化是最重要的设计内容之一,下面就给出卷积和反卷积的相关计算公式。

设图片大小:宽W * 高H * 深D

网络参数:卷积核大小F、卷积核个数K、填充P、步长S

则在卷积操作中,本层输出:

W_{OUT}=\left \lfloor\frac{W-F+2P}{S}\right \rfloor+1

H_{OUT}=\left \lfloor\frac{H-F+2P}{S}\right \rfloor+1

D_{OUT}=K

可以看出如下规律:

  • 输出的图片深度(channel / 高度)仅取决于本层使用的卷积核个数K,与图片的形状无关。
  • 每一层图片的形状取决于卷积核的大小F、步长S、填充P,与图片的深度(channel / 高度)无关。

在反卷积操作中,本层输出:

W_{OUT}=(W-1)\times S-2P+F

H_{OUT}=(H-1)\times S-2P+F

D_{OUT}=K

  • 值得一提的是,池化操作也可以使用上述公式计算输出图片大小。

网络的初始化

常用的初始化方法有:Xavier初始化、MSRA初始化

通常对于越深的神经网络,初始化方法选取则更为重要。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值