三种激活函数以及它们的优缺点

三种激活函数以及它们的优缺点

s i g m o i d sigmoid sigmoid

在这里插入图片描述
导数: g ′ ( z ) = a ( 1 − a ) g^{'}(z)=a(1-a) g(z)=a(1a)

最基本的激活函数,logistics regression以及讲解深度神经网络的时候作为简单例子,但实际上很少使用。

原因如下:
当z非常大或者非常小的时候,a的斜率变得越来越接近0,这会使得梯度下降算法变得极为缓慢。

s i g m o i d sigmoid sigmoid非常适合作为二元分类网络输出层的激活函数,因为在该应用场景下你需要 0 ≤ y ^ ≤ 1 0\leq\hat{y}\leq1 0y^1,而不是 t a n ( h ) tan(h) tan(h) − 1 ≤ y ^ ≤ 1 -1\leq\hat{y}\leq1 1y^1

t a n ( h ) tan(h) tan(h)

在这里插入图片描述
导数: g ′ ( z ) = 1 − a 2 g^{'}(z)=1-a^{2} g(z)=1a2

t a n ( h ) tan(h) tan(h)其实相当于把 s i g m o i d sigmoid sigmoid平移到以原点为中心,然后再缩放到 − 1 ≤ a ≤ 1 -1\leq a \leq1 1a1的范围。

使用 t a n ( h ) tan(h) tan(h)作为激活函数在绝大多数情况下都比sigmoid要好得多,仅有上面提及的二元分类输出层为例外。

而且使用tan(h)能够中心化你的数据,中心化的含义是数据的均值接近0而不是像0.5这样的值。这会使得下一层的学习变得简单一点。

但是 t a n ( h ) tan(h) tan(h) s i g m o i d sigmoid sigmoid一样,在当z非常大或者非常小的时候,a的斜率变得越来越接近0,使得深度下降算法变得极为缓慢。

ReLU(Rectified Linear Unit)

在这里插入图片描述
最最最常用的激活函数。
a = m a x ( 0 , z ) a=max(0,z) a=max(0,z)
导数:
g ′ ( z ) = { 0 if z<0 1 if z>0 g^{'}(z)=\begin {cases} 0&\text{if z<0}\\ 1&\text{if z>0} \end{cases} g(z)={01if z<0if z>0

它的唯一缺点可能就是有一半的范围(图左),a都是0。但实际使用中,足够多的神经网络层数会使得a维持在 ≥ 0 \geq0 0的范围内,所以该缺点影响不大。

另外因为斜率在 ≥ 0 \geq0 0时恒等于1,摆脱了前两种激活函数使得学习速率下降的问题,可以始终维持比较快的学习速度。一般来说,ReLU都比其他激活函数学习得快一点。

这也是为什么CNN干脆把某些层命名为ReLU层,即线性整流层,博主会在CNN的博文里提及除了加快学习速度的其他原因。

leaky ReLU

在这里插入图片描述
ReLU的一种变种,将ReLU中斜率为0的部分,变成了 0.01 z 0.01z 0.01z,你可以调整0.01为其他值,看能否取得更好的效果。
导数:
g ′ ( z ) = { 0.01 if z<0 1 if z>0 g^{'}(z)=\begin {cases} 0.01&\text{if z<0}\\ 1&\text{if z>0} \end{cases} g(z)={0.011if z<0if z>0
一般来说。leaky ReLU能比ReLU取得更好的结果,但实际很少有人使用。

Summary

三种激活函数都有一定的使用场景,ReLU的流行只是在大部分的场景下都适用,具体要选择哪种激活函数,要根据你自己的实际应用来作决策。
如果你不确定你要用什么,ReLU不会让你失望。
在使用ReLU时,ReLU和leaky ReLU任取一个即可,也可以都尝试一下,哪一个能取得最佳结果。
  • 0
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、数据库 2、数据: 3、数据库管理系统(DBMS): 4、数据库系统(Data Base System. DBS 5、数据库系统的特点 6、关系数据模型的优缺点 7、数据库系统的三级模式结构: 模式, 外模式,内模式 8、候选码、主码、主属性、非主属性的概念 9、实体完整性规则: 10、关系三类完整性约束 11、等值连接、自然连接区别与联系 12、SQL特点 16、数据模型根据应用的不同目的可以分为两类 14、外模式/模式映像(逻辑独立性) 15、模式/内模式映像(物理独立性) 13、使用视图的优点: …………很适合考试突击用。 28、触发器:是用户定义在关系表上的一类由事件驱动的特殊过程 29、为什么用触发器?:因为它由服务器自动激活,可以进行更为复杂的检查和操作,具有更精细和更强大的数据控制能力 。 30、什么时候用触发器?:要强制引用完整性时 31、触发器的作用:(1) 触发器可以查询其它表,而且可以包含复杂的 SQL 语句。它们主要用于强制复杂的业务规则或要求;(2) 触发器还有助于强制引用完整性,以便在添加、更新或删除表中的行时保留表之间已定义的关系。 32、函数依赖概念:设有关系模式R(U),X和Y都是U的子集。若对于R(U)的任一可能的关系r,r中不可能存在两个元组在X上的属性值相等,而在Y上的属性值不等,则称X函数确定Y或Y函数依赖于X,记作X→Y。 33、游标怎么使用:游标是系统为用户开设的一个数据缓冲区,存放SQL语句的执行结果,每个游标区都有一个名字,用户可以用SQL语句逐一从游标中获取记录,并赋给主变量,交由主语言进一步处理。 必须使用游标的SQL语句:查询结果为多条记录的SELECT语句;CURRENT形式的UPDATE语句;CURRENT形式的DELETE语句。 34、使用游标的步骤 (1)说明游标 EXEC SQL DECLARE CURSOR FOR ; (2)打开游标 EXEC SQL OPEN ; (3)推进游标指针并取当前记录 EXEC SQL FETCH [[NEXT|PRIOR| FIRST|LAST] FROM] INTO [][,[]]...; (4)关闭游标 EXEC SQL CLOSE ; 35、存储过程的优点和概念 区别主变量 存储过程的优点:(1)运行效率高;(2)降低了客户机和服务器之间的通信量;(3)方便实施企业规则。 存储过程:由PL/SQL语句书写的过程,这个过程经编译和优化后存储在数据库服务器中,使用时只要调用即可。 动态参数与主变量的区别:动态参数的输入不是编译时完成绑定。而是通过 (prepare)语句准备主变量和执行(execute)时绑定数据或主变量来完成 36、关系代数表达式等价变换规则:(看书)(1)连接、笛卡尔积交换律(2)连接、笛卡尔积的结合律(3)投影的串接定律(4)选择的串接定律(5)选择与投影操作的交换律(6)选择与笛卡尔积的交换律(7)选择与并的分配律(8)选择与差运算的分配律(9)选择对自然连接的分配律(10)投影与笛卡尔积的分配律 (11) 投影与并的分配律 37、事务的定义:用户定义的一个数据库操作序列,这些操作要么全做要么全不做,是一个不可分割的工作单位。恢复和并发控制的基本单位。 38、事务的ACID特性:(1)原子性(Atomicity):事务是数据库的逻辑工作单位。(2)一致性(Consistency):事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。(3)隔离性(Isolation):一个事务的执行不能被其他事务干扰。即一个事务内部的操作及使用的数据对其他并发事务是隔离的,并发执行的各个事务之间不能互相干扰。(4)持续性(Durability ):指一个事务一旦提交,它对数据库中数据的改变就应该是永久的。接下来的其他操作或故障不应该对其执行结果有任何影响。 39、起始结束标志:通常是以BEGIN TRANSACTION开始,以COMMIT或ROLLBACK结束。 40、故障的种类:(1)事务内部的故障:有的是可以通过事务程序本身发现的,有的是非预期的。事务故障的恢复:撤消事务(UNDO)。(2)系统故障:称为软故障,是指造成系统停止运转的任何事件,使得系统要重新启动。恢复:发生系统故障时,事务未提交;恢复策略:强行撤消(UNDO)所有未完成事务;发生系统故障时,事务已提交,但缓冲区中的信息尚未完全写回到磁盘上。恢复策略:重做(REDO)所有已提交的事务(3)介质故障;指外存故障。装入数据库发生介质故障前某个时刻的数据副本,

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值