优化篇-【激活函数】

【激活函数】

1.什么是激活函数

1.1 什么是激活函数

  • 将输入映射为一个特定分布的输出,完成非线性变换

在这里插入图片描述

2. 为什么需要激活函数

2.1.大脑的生物机制

在这里插入图片描述

2.2 网络的表达能力

  • 神经元模型

y j = b j + ∑ i x i w j i z = b ′ + ∑ j y j w j ′ = b ′ + ∑ j ( b j + ∑ i x i w j i ) w j ′ = b ′ + ∑ j ( b j w j ′ ) + ∑ i ( ∑ j x i w j i w j ′ ) y_{j}=b_{j}+\sum_{i} x_{i} w_{j i}\\ z=b^{\prime}+\sum_{j} y_{j} w_{j}^{\prime}=b^{\prime}+\sum_{j}\left(b_{j}+\sum_{i} x_{i} w_{j i}\right) w_{j}^{\prime}=b^{\prime}+\sum_{j}\left(b_{j} w_{j}^{\prime}\right)+\sum_{i}\left(\sum_{j} x_{i} w_{j i} w_{j}^{\prime}\right) yj=bj+ixiwjiz=b+jyjwj=b+j(bj+ixiwji)wj=b+j(bjwj)+i(jxiwjiwj)

增加一层后表达还是线性的

  • 没 有 激 活 函 数 就 没 有 非 线 性 表 达 能 力 ​ \color{Red}没有激活函数就没有非线性表达能力​ 线

3.激活函数的发展

3.1 激活函数种类

3.2 sigmoid 和 tanh 激活函数

s i g m o i d ( x ) = 1 1 + e − x tanh ⁡ ( x ) = e x − e − x e x + e − x sigmoid(x)=\frac{1}{1+e^{-x}}\\ \tanh (\mathrm{x})=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} sigmoid(x)=1+ex1tanh(x)=ex+exexex

在这里插入图片描述

3.2.1.sigmoid 函数优缺点:
  • 优点——输出0—1,映射平滑适合预测概率,但是没有复值激活
  • 缺点——不过零点, 梯 度 消 失 ​ \color{Red}梯度消失​
3.2.2tanh函数优缺点:
  • 优点——映射(-1,1)之间,过零点,值域更大
  • 缺点—— 梯 度 消 失 ​ \color{Red}梯度消失​

3.3 ReLu激活函数

  • f ( x ) = m a x ( 0 , x ) f(x)= max (0,x) f(x)=max0,x

优点——计算简单,导数恒定,拥有稀疏性

缺点——没有负激活值

3.4 Relu激活函数的改进

  • 激活函数负值输入,未证明全面比ReLu提升

在这里插入图片描述

3.5Maxout函数

  • 从多个输入中取最大值,求导非常简单,只在最大值得一路有梯度

max ⁡ a k = max ⁡ ( w 1 T x + b 1 , w 2 T x + b 2 , … , w n T x + b n ) \max a_{k}=\max \left(w_{1}^{T} x+b_{1}, w_{2}^{T} x+b_{2}, \ldots, w_{n}^{T} x+b_{n}\right) maxak=max(w1Tx+b1,w2Tx+b2,,wnTx+bn)

  • 优点——拟合能力非常强
  • 缺点——计算量增加,增加了K个神经元

4. 总结与展望

4.1.激活函数从人工设计到自动学习

Swish函数—— x ⋅ s i g m o i d ( β x ) x \cdot sigmoid(\beta x) xsigmoid(βx)

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值