第六讲-训练神经网络上--课时15--批量归一化

batch norm

“you want unit gaussian activations? Just make them so”

卷积神经网络由于需要保留空间信息,对所有batch使用同样的均值和方差。

普通全连接网络各个batch使用各自的mean和variance


gamma和beta是为了添加噪声,具有正则化的作用,它们是学习得到的参数。

gamma和bata使得更flexible,比如tanh中,需要控制不进入saturated区域


gamma和beta取值如下时,可以使得batch norm等于没有发生。即Identity function

实际训练种,不会得到Identity function


------

test time:

batch norm使用固定的均值和方差(训练时,各个batch的平均)

----------------------------------------------------------------------

hyper parameter时,coarse to fine  只迭代几个epoch即可选取超参数。

----------------------------------------------------------------------

2012年论文认为random search优于 grid search

本课程推荐random search (log space)


-----------------------------------------------------------------------




记录参数更新比例,以决定要不要继续更新



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值