卷积神经网络的调参技巧2

卷积神经网络的调参技巧2

激活函数调参技巧

1.对于稀疏数据,使用学习率自适应方法
2.随机梯度下降(SGD),通常训练时间长,最终效果比较好,但需要好的初始化和learning_rate
3.需要训练较深复杂的网络且需要快速收敛的时候,推荐使用Adam,并且设一个比较小的学习率
4.adagrad。RMSprop,Adam是比较相近的算法。在相似的情况表现差不多。其他另外2个比Adam比较不稳定

在这里插入图片描述

sigmoid
1.输入非常大或非常小时,没有梯度
2.输出均值非0(值为0.5)
影响:归一化的时候,设置值为0到1之间,不管你输入什么,经过sigmoid时候,输出的值肯定不是0,而时 0.5。意味着,你第一层时归一化好的,而其他不是归一化好的。
3.exp计算复杂
4.梯度消失

tanh
1.依旧没有梯度
2.输出均值为0
3.计算复杂

relu
1.不饱和(梯度不会太小)
2.计算量小
3.收敛速度快
4.输出均值非0(x大于0,则输出x,x小于等于0,则输出0)
缺点:一个非常大梯度流过神经元,不会再对数据有激活现象(例如负数),然后这个神经元就变成死的神经单元
想要解决这个缺点,可以使用leak-relu

ELU
1.均值更接近于0
2.小于0时,计算量大

maxout
1.relu的泛华版
2.没有dead relu
3.参数double

使用技巧:
1.relu:小心设置learning_rete值
2.不要使用sigmoid
3.使用relu时,考虑leak-relu,maxout,ELU
4.可以试试tanh,但不要期望过大

网络初始化技巧

方法1:
全部设置为0:在单层网络可以,效果就是,梯度可以直接计算在参数上,然后就可以直接更新参数了
在多层网络是不可行的。会使梯度消失(链式法则)

如何分析初始化效果好不好?
1.查看初始化后各层的激活值分布,激活值就是神经元经过激活函数的输出 ,如果激活值的分布在固定的区间内,例如归一化好的-1到1之间 或 0到1 之间,那么就是一个好的初始化结果;如果集中在某个值上就是不好的结果。是因为各个参数是各不相同的,所以希望每个参数都有比较好的梯度更新
2.均值为0 ,方差为0.02的正态分布初始化:relu,tanh-高层均值为0,没有梯度:原因是方差太小了;方差比较大,激活值会集中在-1到1之间

批归一化(Batch Normalization BN)

1.每个batch在每一层上做归一化
2.为了确保归一化能够起作用,另设置两个参数来逆归一化,这两个参数是需要去学习的(伽马,贝塔)

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值