SWISH论文翻译

SWISH论文翻译

基本是机器翻译,也进行了基本的人工矫正,凑活看吧
原论文:SEARCHING FOR ACTIVATION FUNCTIONS
链接:https://arxiv.org/pdf/1710.05941.pdf

摘要
深度网络中激活函数的选择对训练动态和任务性能有显着影响。目前,最成功和广泛使用的激活函数是整流线性单元(ReLU)。尽管已经提出了各种手工设计的ReLU替代品,但由于收益不一致,没有人会替换它。在这项工作中,我们建议利用自动搜索技术来发现新的激活函数。结合使用穷举和强化学习搜索,我们发现了多种新颖的激活函数。我们通过使用最佳发现的激活函数进行实证评估来验证搜索的有效性。我们的实验表明,最好的发现激活函数f(x)= x·sigmoid( β \beta βx),我们称之为Swish,在更深层次的模型中,在许多具有挑战性的数据集中,它们比ReLU更有效。例如,简单地用Swish单元替换ReLU可以将Mobile NASNet-A的ImageNet上的前1级分类精度提高0.9%,而Inception-ResNet-v2则提高0.6%。 Swish的简单性及其与ReLU的相似性使得从业者可以轻松地在任何神经网络中用Swish单元替换ReLU。

1. 介绍
每个深层网络的核心都是线性变换,然后是激活函数 f ( ⋅ ) f(\cdot) f()。激活函数在深度神经网络训练的成功中起着重要作用。目前,最成功和广泛使用的激活函数是整流线性单元(ReLU)(Hahnloser等,2000; Jarrett等,2009; Nair&Hinton,2010),定义为 f ( x ) = m a x ( x , 0 ) f(x)=max(x,0) f(x)=max(x0)。 ReLUs的使用是一项突破,使得能够对最先进的深层网络进行全面监督训练(Krizhevsky等,2012)。具有ReLU的深度网络比具有sigmoid或tanh单位的网络更容易优化,因为当ReLU功能的输入为正时,梯度能够流动。由于其简单性和有效性,ReLU已成为深度学习社区中使用的默认激活函数。

虽然已经提出了许多激活函数来取代ReLU(Maas等人,2013; He等人,2015; Clevert等人,2015; Klambauer等人,2017),但始终没有一款能够像ReLU一样获得广泛采用。许多从业者都喜欢ReLU的简单性和可靠性,因为其他激活函数的性能改进往往在不同的模型和数据集上不一致。
建议更换ReLU的激活函数是手工设计的,以适应被认为重要的属性。然而,最近显示使用搜索技术自动地去发现传统人工设计的组件非常有效(Zoph&Le,2016; Bello等,2017; Zoph等,2017)。例如,Zoph等人。 (2017)使用基于强化学习的搜索来找到一个可复制的卷积单元,其优于ImageNet上的人工设计架构。

在这项工作中,我们使用自动搜索技术来发现新的激活函数。我们专注于寻找新的标量激活函数,它们将标量作为输入并输出标量,因为标量激活函数可用于替换ReLU函数而无需更改网络体系结构。结合穷举与基于强化学习手段的搜索技术,我们发现许多新的激活函数都显示出有前途的表现。为了进一步验证使用搜索来发现标量激活函数的有效性,我们根据经验评估了发现的最佳激活函数。最好的激活函数,我们称之为Swish,即 f ( x ) = x ⋅ s i g m o i d ( β x ) f(x)=x\cdot sigmoid(\beta x) f(x)=xsigmoid(βx),其中 β \beta β是一个常数或可训练的参数。广泛实验表明,Swish在应用于各种具有挑战性的领域(如图像分类和机器翻译)的深度网络上始终类似或优于ReLU。在ImageNet上,用Swish单元替换ReLU可以在Mobile NASNet-A(Zoph等,2017)上将前1个分类精度提高0.9%,在Inception-ResNet-v2上提高0.6%(Szegedy等,2017)。这些精确度的提高是非常重要的,因为一年的架构调整和扩大,从初始V3(Szegedy等,2016)到Inception-ResNet-v2(Szegedy等,2017)产生了1.3%的准确性改进。

2. 方法
为了利用搜索技术,必须设计包含有候选激活函数的搜索空间。设计搜索空间的一个重要挑战是平衡搜索空间的大小和表现力。过度约束的搜索空间将不包含新颖的激活函数,而过大的搜索空间将难以有效搜索。为了平衡这两个标准,我们设计了一个简单的搜索空间,其灵感来自Bello等人(2017)的优化器搜索空间,它通过组合一元和二元函数来构造激活函数。
在这里插入图片描述
如图1所示,通过重复组合“核心单元”来构造激活函数,“核心单元”定义为 b ( u 1 ( x 1 ) , u 2 ( x 2 ) ) b(u_{1}(x_{1}),u_{2}(x_{2})) b(u1(x1),u2(x2))。核心单元接收两个标量输入,通过一元函数独立地传递每个输入,并将两个一元输出与输出标量的二元函数组合。由于我们的目标是找到将单个标量输入转换为单个标量输出的标量激活函数,因此一元函数的输入仅限于图层预激活x和二元函数输出。

给定搜索空间,搜索算法的目标是找到一元函数和二元函数的有效选择。搜索算法的选择取决于搜索空间的大小。如果搜索空间很小,例如当使用单个核心单元时,则可以详尽地枚举整个搜索空间。如果核心单元重复多次,则搜索空间将非常大(即,大约1012种可能性),使得穷举搜索不可行。

对于大型搜索空间,我们使用RNN控制器(Zoph&Le,2016),图2是其可视化后的效果。在每个时间步长,控制器预测激活函数的单个组件。在下一个时间步长中将预测反馈给控制器,并且重复该过程直到预测激活函数的每个分量。然后使用预测的字符串来构建激活函数。

一旦通过搜索算法生成了候选激活函数,就在某些任务上训练具有候选激活函数的“子网络”,例如CIFAR-10上的图像分类。训练之后,记录下子网络的验证准确性并将其应用于搜索算法的更新。在穷举搜索的情况下,保持按验证准确度排序的性能最佳的激活函数列表。在RNN控制器的情况下,控制器通过强化学习进行训练,以最大化验证准确度,其中验证准确度用作奖励。该训练推动控制器生成具有高验证精度的激活函数。
在这里插入图片描述
由于评估单个激活函数需要对子网络进行训练,因此搜索的计算成本非常高。为了减少进行搜索所需的时间,我们使用分布式训练方案来并行化每个子网络的训练。在该方案中,搜索算法提出了一批候选激活函数,这些函数被添加到队列中。机器工作者将激活函数从队列中拉出,训练子网络,并报告相应激活函数的最终验证准确性。验证精度被汇总并用于更新搜索算法。

3. 研究发现
我们使用ResNet-20(He等,2016a)作为子网络架构进行所有搜索,并在CIFAR-10(Krizhevsky&Hinton,2009)上进行10K步骤的训练。这种受限制的环境可能会使结果产生偏差,因为性能最佳的激活函数可能仅适用于小型网络。但是,我们在实验部分中显示,许多发现的函数可以推广到更大的模型。穷举搜索用于小搜索空间,而RNN控制器用于较大的搜索空间。使用 Policy Proximal Optimization(Schulman et al。,2017)对RNN控制器进行训练,使用指数移动平均值作为基线来减少方差。考虑的完整列表一元和二元函数如下:

  • 一元函数: x x x, − x -x x, ∣ x ∣ |x| x, x 2 x^{2} x2, x 3 x^{3} x3, x \sqrt x x , β x \beta x βx, x + β x+\beta x+β, l o g ( ∣ x ∣ + ϵ ) log(|x|+\epsilon) log(x+ϵ), e x p ( x ) exp(x) exp(x), s i n ( x ) sin(x) sin(x), c o s ( x ) cos(x) cos(x), s i n h ( x ) sinh(x) sinh(x), c o s h ( x ) cosh(x) cosh(x), t a n h ( x ) tanh(x) tanh(x), s i n h − 1 ( x ) sinh^{-1}(x) sinh1(x), t a n − 1 ( x ) tan^{-1}(x) tan1(x), s i n c ( x ) sinc(x) sinc(x), m a x ( x , 0 ) max(x,0) max(x,0), m i n ( x , 0 ) min(x,0) min(x,0), σ ( x ) \sigma(x) σ(x), l o g ( 1 + e x p ( x ) ) log(1+exp(x)) log(1+exp(x)), e x p ( − x 2 ) exp(-x^{2}) exp(x2), e r f ( β x ) erf(\beta x) erf(βx)
  • 二元函数: x 1 + x 2 x_{1}+x_{2} x1+x2, x 1 ⋅ x 2 x_{1}\cdot x_{2} x1x2, x 1 − x 2 x_{1}-x_{2} x1x2, x 1 x 2 + ϵ \frac{x_{1}}{x_{2}+\epsilon} x2+ϵx1, m a x ( x 1 , x 2 ) max(x_{1}, x_{2}) max(x1,x2), m i n ( x 1 , x 2 ) min(x_{1}, x_{2}) min(x1,x2), σ ( x 1 ) ⋅ x 2 \sigma(x_{1})\cdot x_{2} σ(x1)x2, e x p ( − β ( x 1 − x 2 ) 2 ) exp(-\beta (x_{1}-x_{2})^{2}) exp(β(x1x2)2), e x p ( − β ∣ x 1 − x 2 ∣ ) exp(-\beta |x_{1}-x_{2}|) exp(βx1x2), β x 1 + ( 1 − β ) x 2 \beta x_{1}+(1-\beta)x_{2} βx1+(1β)x2

其中 β \beta β表示每通道可训练参数, σ ( x ) = ( 1 + e x p ( − x ) ) − 1 \sigma(x)=(1+exp(-x))^{-1} σ(x)=(1+exp(x))1是S形函数。通过改变用于构造激活函数的核心单元的数量并改变搜索算法可用的一元和二元函数来创建不同的搜索空间。

图3描绘了搜索找到的表现最佳的新激活函数。我们强调一下搜索发现的几个值得注意的趋势:
在这里插入图片描述

  • 复杂的激活函数始终逊色于更简单的激活函数,这可能是由于优化难度的增加。性能最佳的激活函数可以由1或2个核心单元表示。
  • 顶部激活函数共享的一个共同结构是使用原始预激活x作为最终二元函数的输入: b ( x , g ( x ) ) b(x,g(x)) b(x,g(x))。 ReLU函数也遵循这种结构,其中 b ( x 1 , x 2 ) = m a x ( x 1 , x 2 ) b(x_{1},x_{2})=max(x_{1}, x_{2}) b(x1x2)=max(x1,x2) g ( x ) = 0 g(x)=0 g(x)=0
  • 这些研究发现了使用周期函数的激活函数,比如 s i n sin sin c o s cos cos。周期函数的最常见用途是通过使用原始预激活x(或线性缩放的x)进行加法或减法。在激活函数中使用周期函数只是在先前的工作中进行了简要探讨(Parascandolo等,2016),因此这些发现的函数为进一步研究提供了一条富有成效的途径。
  • 使用除法的函数往往表现不佳,因为当分母接近0时输出会爆炸。只有当分母中的函数要么偏离0时才会成功,例如 c o s h ( x ) cosh(x) cosh(x),或者仅当分子也接近0时才成功接近0,产生1的输出。

由于使用相对较小的子网络发现激活函数,因此当应用于较大的模型时,它们的性能可能不一致。为了测试最佳表现的新型激活函数对不同架构的稳健性,我们使用预激活ResNet-164(RN)(He等,2016b),Wide ResNet 28-10(WRN)(Zagoruyko&Komodakis, 2016),和DenseNet 100-12(DN)(Huang et al。,2017)模型。我们在TensorFlow中实现了3个模型,并将ReLU函数替换为搜索发现的每个顶级新激活函数。我们使用每个工作中描述的相同超参数,例如使用具有动量的SGD进行优化,并通过报告5个不同运行的中值来遵循先前的工作。
在这里插入图片描述
结果显示在表1和表2中。尽管模型体系结构发生了变化,但八个激活函数中有六个被成功推广。在这六个激活函数中,全都类似或优于ResNet-164上的ReLU。此外,所发现的两个激活函数 x ⋅ σ ( β x ) x\cdot \sigma(\beta x) xσ(βx) m a x ( x , σ ( x ) ) max(x,\sigma(x)) max(xσ(x))在所有三个模型上始终匹配或优于ReLU

虽然这些结果很有希望,但仍然不清楚发现的激活函数是否可以在具有挑战性的真实世界数据集上成功替换ReLU。为了验证搜索的有效性,在本工作的其余部分,我们专注于实证评估激活函数 f ( x ) = x ⋅ σ ( β x ) f(x)=x\cdot \sigma(\beta x) f(x)=xσ(βx),我们称之为Swish。我们选择广泛地评估Swish而不是 m a x ( x , σ ( x ) ) max(x,\sigma(x)) max(xσ(x)),因为早期实验显示Swish的更好的推广。在接下来的部分中,我们分析Swish的属性,然后在各种任务中的大型模型上进行全面的实证评估,比较Swish、ReLU和其他候选基线激活函数。

4. SWISH
总结一下,Swish定义为 x ⋅ σ ( β x ) x\cdot \sigma(\beta x) xσ(βx),其中 σ ( x ) = ( 1 + e x p ( − x ) ) − 1 \sigma(x)=(1+exp(-x))^{-1} σ(x)=(1+exp(x))1是S形函数, β \beta β是常数或可训练的参数。图4绘制了不同 β \beta β的值对应的Swish图。如果 β = 1 \beta=1 β=1,则Swish等效于 Elfwing等人(2017)的 Sigmoid加权线性单位(Sigmoid-weighted Linear Unit, SiL),它被提议用于强化学习。如果 β = 0 \beta=0 β=0,则Swish变为缩放线性函数 f ( x ) = x / 2 f(x)=x/2 f(x)=x/2。当 β → ∞ \beta \rarr \infty β时,sigmoid分量接近0-1函数,这时Swish变得像ReLU函数一样。这表明可以将Swish松散地视为平滑函数,其在线性函数和ReLU函数之间进行非线性插值。如果将 β \beta β设置为可训练参数,则可以通过模型控制插值程度。
在这里插入图片描述
像ReLU一样,Swish上无界下有界。与ReLU不同,Swish是平滑且非单调的。实际上,Swish的非单调性正是它区别于其他激活函数的一个特点。 Swish的导数是:
f ′ ( x ) = σ ( β x ) + β x ⋅ σ ( β x ) ( 1 − σ ( β x ) ) = σ ( β x ) + β x ⋅ σ ( β x ) − β x ⋅ σ ( β x ) 2 = β x ⋅ σ ( β x ) + σ ( β x ) ( 1 − β x ⋅ σ ( β x ) ) = β f ( x ) + σ ( β x ) ( 1 − β f ( x ) ) f'(x) = \sigma(\beta x)+\beta x\cdot\sigma(\beta x)(1-\sigma(\beta x)) \\ = \sigma(\beta x)+\beta x\cdot\sigma(\beta x)-\beta x\cdot\sigma(\beta x)^{2} \\ = \beta x\cdot\sigma(\beta x) + \sigma(\beta x)(1-\beta x\cdot\sigma(\beta x)) \\ = \beta f(x) + \sigma(\beta x)(1-\beta f(x)) f(x)=σ(βx)+βxσ(βx)(1σ(βx))=σ(βx)+βxσ(βx)βxσ(βx)2=βxσ(βx)+σ(βx)(1βxσ(βx))=βf(x)+σ(βx)(1βf(x))
对于不同的 β \beta β值,Swish的一阶导数在图5中示出。 β \beta β的大小控制一阶导数渐近0和1的速度。当 β = 1 \beta=1 β=1时,对于小于1.25的输入,导数的幅度小于1。因此,具有 β = 1 \beta=1 β=1的Swish的成功意味着ReLU的梯度保持特性(即,当x> 0时具有1的导数)可能不再是现代架构中的明显优势。

Swish和ReLU之间最显着的区别是当 x &lt; 0 x&lt;0 x<0时,Swish的非单调“碰撞”。如图6所示,大部分的 preactivations 落在凸起的范围内( − 5 ≤ x ≤ 0 -5\le x \le 0 5x0),这表明非单调凹凸(bump)是Swish的一个重要方面。可以通过改变 β \beta β参数来控制凸起的形状。虽然固定 β = 1 \beta=1 β=1在实践中是有效的,但实验部分显示训练 β \beta β可以进一步改善某些模型的性能。图7绘制了来自Mobile NASNet-A模型的训练 β \beta β值的分布(Zoph等,2017)。训练的 β \beta β值在0和1.5之间展开,并且在 β ≈ 1 \beta\approx1 β1处具有峰值,表明该模型利用了可训练 β \beta β参数的额外灵活性。
在这里插入图片描述
实际上,Swish可以通过大多数深度学习库中的单行代码更改来实现,例如TensorFlow(Abadi等,2016)(例如,x * tf.sigmoid(beta * x)或tf.nn.swish(x) )如果使用在提交此作品后发布的TensorFlow版本)。需要注意的一点是,如果使用BatchNorm(Ioffe&Szegedy,2015),则应设置scale参数。由于ReLU函数是分段线性的,一些高级库会默认关闭scale参数,这对Swish的设置来说是不正确的。为了训练Swish网络,我们发现稍微降低一些用于训练ReLU网络的学习率,效果会更好。

5. 使用SWISH的实验
我们将Swish与ReLU和一些最近提出的激活函数进行基准测试,以确定挑战性数据集,并发现Swish在几乎所有任务中都类似或超过基线。以下部分将更详细地描述我们的实验设置和结果。作为总结,表3显示了Swish与我们考虑的每个基线激活函数(将在下一节中定义)进行比较的结果。表3中的结果通过比较Swish的性能与应用于各种模型的不同激活函数的性能进行汇总,例如Inception ResNet-v2(Szegedy等,2017)和Transformer(Vaswani等,2017)跨越多个数据集,例如CIFAR,ImageNet和英德翻译在单侧配对符号测试下,Swish相对于其他激活函数的改进在统计上是显着的。
在这里插入图片描述
5.1. 实验设置
我们将Swish与各种模型和数据集上的其他几个基线激活函数进行比较。由于已经提出了许多激活函数,我们选择最常见的激活函数进行比较,并遵循每项工作中的指导原则:

  • Leaky ReLU (LReLU) (Maas et al., 2013):
    在这里插入图片描述
    其中 α \alpha α=0.01。当x < 0时,LReLU允许少量信息流动
  • ParametricReLU(PReLU)(Heetal。,2015):与LReLU形式相同,但 α \alpha α是可学习的参数。每个通道都有一个共享 α \alpha α,初始化为0.25。
  • Softplus(Nair&Hinton,2010): f ( x ) = l o g ( 1 + e x p ( x ) ) f(x)=log(1+exp(x)) f(x)=log(1+exp(x))。 Softplus是一个平滑的函数,具有类似于Swish的属性,但严格来说是正数和单调的。它可以被视为ReLU的平滑版本。
  • Exponential Linear Unit (ELU) (Clevert et al., 2015):
    在这里插入图片描述
    其中 α \alpha α=1.0
  • Scaled Exponential Linear Unit (SELU) (Klambauer et al., 2017):
    在这里插入图片描述
    其中 α ≈ 1.6733 \alpha\approx1.6733 α1.6733 λ ≈ 1.0507 \lambda\approx1.0507 λ1.0507
  • Gaussian Error Linear Unit(GELU)(Hendrycks&Gimpel,2016): f ( x ) = x ⋅ Φ ( x ) f(x)=x\cdot\Phi(x) f(x)=xΦ(x),其中 Φ ( x ) \Phi(x) Φ(x)是标准正态分布的累积分布函数。 GELU是一种非单调函数,其形状类似于 β = 1.4 \beta=1.4 β=1.4的Swish。

我们用可训练的 β \beta β和Swish评估具有固定 β = 1 \beta=1 β=1的Swish(为简单起见,我们称之为Swish-1,但它相当于Elfwing等人的Sigmoid加权线性单元(2017))。请注意,由于我们的训练设置不同,我们的结果可能无法与相应工作中的结果直接比较。

5.2. CIFAR
我们首先将Swish与CIFAR-10和CIFAR-100数据集上的所有基线激活函数进行比较(Krizhevsky&Hinton,2009)。我们遵循在比较搜索技术发现的激活函数时使用的相同设置,并将5次运行的中位数与预激活ResNet-164(He等,2016b),Wide ResNet 28-10(WRN)进行比较(Zagoruyko&Komodakis,2016)和DenseNet 100-12(Huang et al。,2017)模型。
在这里插入图片描述
表4和表5中的结果显示Swish和Swish-1如何在CIFAR-10和CIFAR-100的每个模型上始终匹配或优于ReLU。 Swish还匹配或超过几乎所有型号的最佳基准性能。重要的是,不同模型之间的“最佳基线”变化,证明了Swish的稳定性,以匹配这些不同的基线。 Softplus是一款平滑且一侧接近零的软件,与Swish相似,也具有很强的性能。
5.3. IMAGENET
接下来,我们将Swish与ImageNet 2012分类数据集上的基线激活函数进行比较(Russakovsky等,2015)。 ImageNet被广泛认为是最重要的图像分类数据集之一,由1,000个类和128万个训练图像组成。我们评估验证数据集,其中包含50,000张图像。

我们比较了为ImageNet设计的各种体系结构的所有激活函数:Inception-ResNet-v2,Inception-v4,Inception-v3(Szegedy等,2017),MobileNet(Howard等,2017)和Mobile NASNet -A(Zoph等,2017)。所有这些架构都使用Re-LU设计。我们再次使用不同的激活函数替换ReLU激活函数,并训练固定步数,由ReLU基线的收敛确定。对于每个激活函数,我们使用RMSProp(Tieleman&Hinton,2012)尝试3种不同的学习率并选择最佳.2所有网络都使用He初始化进行初始化(He et al。,2015).3验证性能差异是可重复的,我们运行Inception-ResNet-v2和Mobile NASNet-A实验3次,具有第一次实验的最佳学习率。我们绘制了图8中Mobile NASNet-A的学习曲线。
在这里插入图片描述
在这里插入图片描述
表6-10中的结果显示Swish的强大性能。在Inception-ResNet-v2中,Swish的表现优于ReLU 0.5%。 Swish在移动尺寸型号上的表现尤为出色,移动NASNet-A的性能提升1.4%,而MobileNet则超过ReLU的2.2%。在大多数模型中,Swish也匹配或超过最佳表现基线,同样,表现最佳的基线因型号而异。 Softplus在较大的型号上实现了与Swish相当的精度,但在两种移动尺寸的型号上都表现更差。对于Inception-v4,激活函数之间切换的收益更受限制,而Swish略微低于Softplus和ELU。一般来说,结果表明切换到Swish可以通过很少的额外调整来提高性能。

5.4. 机器翻译
我们还在机器翻译领域对Swish进行了测试。我们在标准 WMT 2014 英德数据集上训练机器翻译模型,该数据集有450万个训练句子,并使用标准BLEU度量标准评估4种不同的新闻测试集。我们使用基于注意力的Transformer(Vaswani等,2017)模型,该模型在每个关注层之间的2层前馈网络中使用ReLU。我们培训了一个12层“基础Transformer”模型,具有2个不同的学习率4,用于300K步骤,但是否则使用与原始工作相同的超参数,例如使用Adam(Kingma&Ba,2015)进行优化。
在这里插入图片描述
表11显示Swish在机器翻译方面优于或匹配其他基线。 Swish-1在newstest2016上的表现特别好,超过了下一个表现最好的基线0.6 BLEU积分。性能最差的基线功能是Softplus,表明不同域的性能不一致。相比之下,Swish在多个领域的表现始终如一。

6. 相关工作
使用各种自动搜索技术发现Swish。搜索技术已被用于其他工作中以发现卷积和复现结构(Zoph&Le,2016; Zoph等人,2017; Real等人,2017; Cai等人,2017; Zhong等人,2017)和优化者(Bello等,2017)。使用搜索技术来发现传统的手工设计组件是最近复兴的元学习子领域的一个实例(Schmidhuber,1987; Naik&Mammone,1992; Thrun&Pratt,2012)。元学习已被用于寻找一次性学习的初始化(Finn等,2017; Ravi&Larochelle,2016),适应性强化学习(Wang等,2016; Duan等,2016),以及生成模型参数(Ha et al。,2016)。元学习是强大的,因为从编码的最小假设中获得的灵活性导致了经验上有效的解决方案。我们利用这个属性来找到具有强大经验性能的标量激活函数,例如Swish。

虽然这项工作侧重于将标量转换为另一个标量的标量激活函数,但深层网络中使用了许多类型的激活函数。多任务功能,如max pooling,maxout(Goodfellow et al。,2013)和门控(Hochreiter&Schmidhuber,1997; Srivastava等,2015; van den Oord等,2016; Dauphin等。 ,2016; Wu等人,2016; Miech等人,2017),通过以非线性方式组合多个源来获得它们的能力。一对多函数,如Concatenated ReLU(Shang et al。,2016),通过将多个非线性函数应用于单个输入来提高性能。最后,多对多函数,如BatchNorm(Ioffe和Szegedy,2015)和LayerNorm(Ba等,2016),在它们的输入之间引起强大的非线性关系。

大多数先前的工作集中于提出新的激活函数(Maas等,2013; Agostinelli等,2014; He等,2015; Clevert等,2015; Hendrycks&Gimpel,2016; Klambauer等, 2017; Qiu&Cai,2017; Zhou et al。,2017; Elfwing et al。,2017),但很少有研究,如Xu等。 (2015),系统地比较了不同的激活函数。据我们所知,这是第一项比较跨多个具有挑战性的数据集的标量激活函数的研究。

我们的研究表明,Swish在深度模型上的表现始终优于ReLU。 Swish的强大表现成功挑战了ReLU。当剩余连接(He等,2016a)能够优化非常深的网络时,关于ReLU的梯度保持特性的重要性的假设似乎是不必要的。在完全关注的Transformer(Vaswani等,2017)中可以找到类似的见解,当使用恒定长度的注意连接时,不再需要复杂构造的LSTM单元(Hochre-iter&Schmidhuber,1997)。架构改进减少了单个组件保留渐变的需要。

7. 结论
在这项工作中,我们利用自动搜索技术来发现具有强大经验性能的新型激活函数。然后我们凭经验验证了最佳发现的激活函数,我们将其称为Swish,并定义为 f ( x ) = x ⋅ s i g m o i d ( β x ) f(x)=x·sigmoid(\beta x) f(x)=xsigmoid(βx)。我们的实验使用了为ReLU设计的模型和超参数,并用Swish替换了ReLU激活函数;即使是这种简单,次优的程序,Swish也能始终如一地超越ReLU和其他激活函数。当这些模型和超参数专门针对Swish进行设计时,我们期望获得额外的收益。 Swish的简单性及其与ReLU的相似性意味着在任何网络中替换ReLU只是简单的一行代码更改。


参考文献

Mart ́ın Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al. Tensorflow: A system for large-scale machine learning. In USENIX Symposium on Operating Systems Design and Implementation, volume 16, pp. 265–283, 2016.
Forest Agostinelli, Matthew Hoffman, Peter Sadowski, and Pierre Baldi. Learning activation functions to improve deep neural networks. arXiv preprint arXiv:1412.6830, 2014.
Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. In Advances in Neural Information Processing Systems, 2016.
Irwan Bello, Barret Zoph, Vijay Vasudevan, and Quoc V Le. Neural optimizer search with reinforcement learning. In International Conference on Machine Learning, pp. 459–468, 2017.
Han Cai, Tianyao Chen, Weinan Zhang, Yong Yu, and Jun Wang. Reinforcement learning for architecture search by network transformation. arXiv preprint arXiv:1707.04873, 2017.
Djork-Arne ́ Clevert, Thomas Unterthiner, and Sepp Hochreiter. Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289, 2015.
Yann N Dauphin, Angela Fan, Michael Auli, and David Grangier. Language modeling with gated convolutional networks. arXiv preprint arXiv:1612.08083, 2016.
Yan Duan, John Schulman, Xi Chen, Peter L Bartlett, Ilya Sutskever, and Pieter Abbeel. Rl2: Fast reinforce- ment learning via slow reinforcement learning. arXiv preprint arXiv:1611.02779, 2016.
Stefan Elfwing, Eiji Uchibe, and Kenji Doya. Sigmoid-weighted linear units for neural network function approximation in reinforcement learning. arXiv preprint arXiv:1702.03118, 2017.
Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. arXiv preprint arXiv:1703.03400, 2017.
Ian J Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron Courville, and Yoshua Bengio. Maxout networks. In International Conference on Machine Learning, 2013.
David Ha, Andrew Dai, and Quoc V Le. Hypernetworks. arXiv preprint arXiv:1609.09106, 2016.
Richard HR Hahnloser, Rahul Sarpeshkar, Misha A Mahowald, Rodney J Douglas, and H Sebastian Seung. Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit. Nature, 405(6789): 947, 2000.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving deep into rectifiers: Surpassing human- level performance on imagenet classification. In Proceedings of the IEEE international conference on com- puter vision, pp. 1026–1034, 2015.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770–778, 2016a.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks. In European Conference on Computer Vision, pp. 630–645. Springer, 2016b.
Dan Hendrycks and Kevin Gimpel. Bridging nonlinearities and stochastic regularizers with gaussian error linear units. arXiv preprint arXiv:1606.08415, 2016.
Sepp Hochreiter and Ju ̈rgen Schmidhuber. Long short-term memory. Neural Computation, 9(8):1735–1780, 1997.
Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. Mobilenets: Efficient convolutional neural networks for mobile vision ap- plications. arXiv preprint arXiv:1704.04861, 2017.
Gao Huang, Zhuang Liu, Kilian Q Weinberger, and Laurens van der Maaten. Densely connected convolutional networks. In Conference on Computer Vision and Pattern Recognition, 2017.
Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International Conference on Machine Learning, pp. 448–456, 2015.
Kevin Jarrett, Koray Kavukcuoglu, Yann LeCun, et al. What is the best multi-stage architecture for object recognition? In 2009 IEEE 12th International Conference on Computer Vision, 2009.
Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In International Conference on Learning Representations, 2015.
Gu ̈nter Klambauer, Thomas Unterthiner, Andreas Mayr, and Sepp Hochreiter. Self-normalizing neural net- works. arXiv preprint arXiv:1706.02515, 2017.
Alex Krizhevsky and Geoffrey Hinton. Learning multiple layers of features from tiny images. Technical report, Technical report, University of Toronto, 2009.
Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems, pp. 1097–1105, 2012.
Andrew L Maas, Awni Y Hannun, and Andrew Y Ng. Rectifier nonlinearities improve neural network acoustic models. In International Conference on Machine Learning, volume 30, 2013.
Antoine Miech, Ivan Laptev, and Josef Sivic. Learnable pooling with context gating for video classification. arXiv preprint arXiv:1706.06905, 2017.
Devang K Naik and RJ Mammone. Meta-neural networks that learn by learning. In Neural Networks, 1992. IJCNN., International Joint Conference on, volume 1, pp. 437–442. IEEE, 1992.
Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. In Interna- tional Conference on Machine Learning, 2010.
Giambattista Parascandolo, Heikki Huttunen, and Tuomas Virtanen. Taming the waves: sine as activation function in deep neural networks. 2016.
Suo Qiu and Bolun Cai. Flexible rectified linear units for improving convolutional neural networks. arXiv preprint arXiv:1706.08098, 2017.
Sachin Ravi and Hugo Larochelle. Optimization as a model for few-shot learning. 2016.
Esteban Real, Sherry Moore, Andrew Selle, Saurabh Saxena, Yutaka Leon Suematsu, Quoc Le, and Alex Kurakin. Large-scale evolution of image classifiers. arXiv preprint arXiv:1703.01041, 2017.
Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, An- drej Karpathy, Aditya Khosla, Michael Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211–252, 2015.
Jurgen Schmidhuber. Evolutionary principles in self-referential learning. On learning how to learn: The meta-meta-… hook.) Diploma thesis, Institut f. Informatik, Tech. Univ. Munich, 1987.
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
Wenling Shang, Kihyuk Sohn, Diogo Almeida, and Honglak Lee. Understanding and improving convolutional neural networks via concatenated rectified linear units. In International Conference on Machine Learning, pp. 2217–2225, 2016.
Rupesh Kumar Srivastava, Klaus Greff, and Ju ̈rgen Schmidhuber. Highway networks. arXiv preprint arXiv:1505.00387, 2015.
Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking the incep- tion architecture for computer vision. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016.
Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. In AAAI, pp. 4278–4284, 2017.
Sebastian Thrun and Lorien Pratt. Learning to learn. Springer Science & Business Media, 2012.
Tijmen Tieleman and Geoffrey Hinton. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural networks for machine learning, 4(2):26–31, 2012.
Aaron van den Oord, Nal Kalchbrenner, Lasse Espeholt, Oriol Vinyals, Alex Graves, et al. Conditional image generation with pixelcnn decoders. In Advances in Neural Information Processing Systems, pp. 4790–4798, 2016.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017.
Jane X Wang, Zeb Kurth-Nelson, Dhruva Tirumala, Hubert Soyer, Joel Z Leibo, Remi Munos, Charles Blundell, Dharshan Kumaran, and Matt Botvinick. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016.
Yuhuai Wu, Saizheng Zhang, Ying Zhang, Yoshua Bengio, and Ruslan R Salakhutdinov. On multiplicative integration with recurrent neural networks. In Advances in Neural Information Processing Systems, pp. 2856–2864, 2016.
Bing Xu, Naiyan Wang, Tianqi Chen, and Mu Li. Empirical evaluation of rectified activations in convolutional network. arXiv preprint arXiv:1505.00853, 2015.
Sergey Zagoruyko and Nikos Komodakis. Wide residual networks. In British Machine Vision Conference, 2016.
Zhao Zhong, Junjie Yan, and Cheng-Lin Liu. Practical network blocks design with q-learning. arXiv preprint arXiv:1708.05552, 2017.
Guorui Zhou, Chengru Song, Xiaoqiang Zhu, Xiao Ma, Yanghui Yan, Xingya Dai, Han Zhu, Junqi Jin, Han Li, and Kun Gai. Deep interest network for click-through rate prediction. arXiv preprint arXiv:1706.06978, 2017.
Barret Zoph and Quoc V Le. Neural architecture search with reinforcement learning. In International Confer- ence on Learning Representations, 2016.
Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V Le. Learning transferable architectures for scal- able image recognition. arXiv preprint arXiv:1707.07012, 2017.

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值