【吴恩达深度学习】测试2-3总结:超参数调整 批量标准化

超参数调整

1. 超参数
  • α \alpha α 学习率
  • 隐藏单元数量
  • batchsize
  • β \beta β (~0.9)
  • β 1 , β 2 , ϵ \beta_1,\beta_2,\epsilon β1,β2,ϵ (默认 0.9 , 0.999 , 1 0 − 8 0.9,0.999,10^{-8} 0.90.999108从不调)
  • 层数
  • 学习率衰减

其中学习率最重要,而后面三个影响最小。
做项目时,模型的细微变化,都可能需要重新调试超参数。

2. 搜索超参数
  • 尝试随机值,不用网格搜索,因为不确定哪些超参数更重要。
  • 从粗到细。
  • 采取合适的尺度
    EXAMPLE搜索动量超参数 β \beta β介于0.9和0.99之间:
r = np.random.rand() #[0,1]
beta = 1 - 10 ** ( - r - 1 ) #[0.9,0.99]

批量标准化

1. 目的:

我们对输入数据X进行归一化处理,同样,我们可以对每个隐藏层标准化 z ( i ) z^{(i)} z(i),使其有固定的均值和方差,可以是0,1,也可以是任意值,这样能够加快梯度下降的求解速度,即提升模型的收敛速度。

2. 实现:
  • 计算均值和方差 u , σ 2 u,\sigma^2 u,σ2
    由于在测试时,一次只处理一个样本,因此 u , σ 2 u,\sigma^2 u,σ2的计算要用指数加权平均来估测。

  • 标准化 z n o r m ( i ) = z ( i ) − u σ 2 + ϵ z_{norm}^{(i)}=\frac{z^{(i)}-u}{\sqrt{\sigma^2+\epsilon}} znorm(i)=σ2+ϵ z(i)u

  • γ , β \gamma,\beta γ,β 参数构造平均值和方差 z ~ = γ z n o r m ( i ) + β \widetilde{z}=\gamma z_{norm}^{(i)}+\beta z =γznorm(i)+β

  • 网络中的参数,由原来的 w , b w,b w,b 变成 w , γ , β w,\gamma,\beta w,γ,β,由于 z z z都要先进行标准化处理,b会抵消掉,不会有影响。

3. 优点:
  • 有一点正则化的作用,主要还是加速学习。
  • 前层变化不大,使后层学习更加容易。
  • 类似于dropout对每层增加噪音,使后面的单元不过分依赖任何一个单元,可以和droupout一起加强正则化效果。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值