写在前面
在深度学习领域,无论是进行相关实验,或是参加实际项目,设计神经网络永远是最不起眼但最实际的问题。本文记录了笔者在研究及实验过程中积累的神经网络设计、训练相关经验,在此整理供后续的迭代研究使用。
卷积核的选取(CNN)
卷积在神经网络中有助于提高网络输出的语义解释性。在CNN中,卷积核通常选取方式如下:
padding | kernel_size |
---|---|
1 | 3*3 |
2 | 5*5 |
3 | 7*7 |
使用小核卷积通常有助于提升网络的性能。
卷积核的个数(CNN)
卷积核的个数通常为2的次方数,常用的卷积核个数序列为:32、64、128、512
步长(CNN)
步长通常与图像的分辨率有关,较小的步长通常会带来较少的参数,使得网络更新参数时速度更快。
激活函数的选取
神经网络的常用激活函数可以分为以下几种:
- 饱和式激活函数:tanh()、sigmoid()
- 非饱和式激活函数:ReLU()、LeakyReLU()
在目前的大多数研究中,饱和式的激活函数虽然可导性优越,但常常会导致梯度消失,在训练过程中造成大量神经元死亡。
而非饱和式的激活函数则可以有效地避免这种问题,ReLU是最常用的激活函数,在生物学上也拥有良好的可解释性。但ReLU是比较激烈的激活函数,在小于0的半段仍然有导致梯度消失的风险。
相比之下,LeakyReLU更加柔和,通常情况下可以稳定地提供梯度,从一定程度上抑制神经元死亡失效。
通常的选取方法是先用ReLU,再尝试其他类型。
在需要对输出做概率化处理时,使用softmax。
卷积和反卷积的公式(CNN)
在CNN的设计中,卷积和反卷积时图像经过的变化是最重要的设计内容之一,下面就给出卷积和反卷积的相关计算公式。
设图片大小:宽 * 高 * 深
网络参数:卷积核大小、卷积核个数、填充、步长
则在卷积操作中,本层输出:
可以看出如下规律:
- 输出的图片深度(channel / 高度)仅取决于本层使用的卷积核个数,与图片的形状无关。
- 每一层图片的形状取决于卷积核的大小、步长、填充,与图片的深度(channel / 高度)无关。
在反卷积操作中,本层输出:
- 值得一提的是,池化操作也可以使用上述公式计算输出图片大小。
网络的初始化
常用的初始化方法有:Xavier初始化、MSRA初始化
通常对于越深的神经网络,初始化方法选取则更为重要。