网络越"深"越"好"?

深度神经网络的特点是啥?特点就是深,但是越深的网络意味着计算复杂度的加大和更高的延迟,这产生了个疑问?网络真的越深越好吗?有么有"不深又好"的网络呢?这篇论文<NON-DEEP NETWORKS>给了我们肯定的答案。这篇论文充分利用了并行子网络有效的降低了网络的深度并提升了模型的效果。

v2-5715e90ae7170dc41153ad72585f138e_b.jpg

曾几何时,越深的网络就意味着越好的效果,从Inceptions->ResNets->DenseNet等等,直到现在都被"巨大的"transformer模型所替代。我们都发现越深的网络往往带来更好的效果但是也带来了更高的计算复杂度,更大的内存需求,和长达可能数天的训练时间。Non-Deep Networks因此就诞生了,仅仅用了12层就取得了最好的效果。神经网络缩放通常增加网络深度,分辨率和宽度,但是该论文提出的ParNets选择了并行子网络结构。

v2-132e8eea326dce09e09cab709f2cb6b4_b.jpg

v2-c46e6483cb30a085c268919f04b12c0e_b.jpg

主要思想就是使用12层网络,并使用并行化,如下图所示,我们会看到一些流(分支),每个分支带有类似于VGG模型的blocks,这些blocks称为ParNet blocks。多个3x3卷积分支可合并为单个3x3卷积分支,有效减少推理次数。

v2-39a51fa905dce2346161d5e25d543575_b.jpg

每个ParNet块由3个主要组件组成,然后在下一个块之前合并/融合这些组件:

  • 1 * 1 convolution
  • 3 * 3 convolution
  • SSE(Skip-Squeeze-and-Excitation) layer also called the RepVGG-SSE block

SSE如上图最右侧所示。它所做的基本上是,增加感受域而不增加深度,而不是传统的Squeeze-Excitation实现。为了在浅网络规模下诱发比ReLU激活更多的非线性,作者选择使用较新的SiLU。

下一步是down-sampling和fusion blocks。下采样导致宽度增加,这有利于多尺度处理。这个block非常简单,使用Squeeze-Excitation(SE)层和连接到1x1卷积分支的average pooling层。除了一个额外的连接层外,fusion与下采样没有什么不同。

v2-15d0f0fe576b742107062b3b2477709f_b.jpg

该模型在ImageNet上使用SGD优化器,batchsize为2048,训练120个epoch。如果batchsize大小不满足memory,则学习率会随batchsize大小成比例降低。我们可以看到ParNet比ResNets效果更好。

v2-1132cfe8bff1af9c9b937a5f835e3282_b.jpg

参考文献:

1.arxiv.org/pdf/2110.0764

2.github.com/imankgoyal/N

网络越"深"越"好"?

v2-a3db4299c4ffb1eb41fb92383c3574dc_b.jpg

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一般来说,随着网络度增加,网络的训练可能会变得更加困难。以下是一些原因: 1. 梯度消失/梯度爆炸:在网络中,信息需要通过多个层进行传递,这可能导致梯度在反向传播过程中逐渐变小或变大,从而导致梯度消失或梯度爆炸的问题。这会使得网络参数的更新非常困难,导致训练过程变慢或者无法收敛。 2. 参数空间的复杂性:网络具有更多的参数,这意味着网络需要更多的训练样本来学习这些参数。如果训练数据有限,那么网络可能会出现过拟合现象。 3. 计算资源需求:网络通常需要更多的计算资源(例如内存和计算能力),以便在训练过程中有效地处理大量的参数和数据。这可能对硬件和时间成本构成挑战。 然而,尽管网络可能更难训练,但仍然有很多技术和方法可以应对这些问题。例如: - 初始化策略:使用适当的权重初始化方法,如Xavier或He等,可以帮助缓解梯度消失或梯度爆炸的问题。 - 规范化方法:使用批归一化、权重衰减(weight decay)等规范化方法,可以帮助稳定训练过程,防止过拟合。 - 残差连接:引入残差连接(如ResNet)可以帮助信息在网络中更容易地传递,缓解梯度消失和训练困难的问题。 - 预训练和迁移学习:通过在大规模数据集上进行预训练,或者利用先前训练好的模型进行迁移学习,可以提供更好的初始化和更快的收敛速度。 - 正则化和早停策略:使用正则化方法(如dropout)和合适的早停策略,可以帮助控制模型的复杂性,防止过拟合。 总之,尽管网络可能更具挑战性,但通过合适的技术和策略,仍然可以有效地训练网络并获得良好的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值