吴恩达深度学习笔记整理(六)

超参数调试、Batch正则化和程序框架超参数:学习率、batch、权重衰减......

目录

超参数调试、Batch正则化和程序框架超参数:学习率、batch、权重衰减......

对于超参数,如何选择调试值?

为超参数选择合适的范围。

超参数调试实践

归一化网络的激活函数

将Batch Norm拟合进神经网络

Batch Norm为什么有作用?

Batch Norm的使用注意事项

Softmax回归

如何训练softmax分类器

深度学习框架


对于超参数,如何选择调试值?

1.对于参数选择范围较小的情况,只搜索两个参数时,可以选择网格图。

2.采用由粗糙到精细的策略,先搜大范围,再搜小范围。

为超参数选择合适的范围。

随机抽样的方法只对小样本规律的参数值域有好的效果,对于一些较大样本,并不适用,比如0.0001—1。此时考虑用对数标尺搜索超参数,0.0001、0.001、0.01、0.1、1。

对于β来说,取值范围为0.9—0.999,不妨换算为对1-β取值,这样取值范围为0.1—0.001,转换为指数,就是[-3,-1]的指数平均取值。

超参数调试实践

       情况一:一个模型,有庞大的数据组,但没有许多计算资源或足够的 CPU 和GPU 的前提下,每一次训练完成之后,对学习率进行调整重新训练。

       情况二:算力足够,设置多组超参数平行进行模型训练。

归一化网络的激活函数

Batch归一化:把神经网络的值标准化,化为含平均值0和标准单位方差。如果不想让神经网络层的分布固定,可以引入线性函数改变值。

将Batch Norm拟合进神经网络

       在神经网络训练,我们将每一层的值进行归一化,之后经过新的线性变换输入到激活层,一般称之为BN。由于在归一化前,对输入x进行了线性变换,我们可以简单地认为该线性变换的常数b可以忽略,在归一化后加入新的线性变换再输入到激活层。

Batch Norm为什么有作用?

       1.将输入统一在一个范围内。2.使权重比网络更深层、更滞后。[隐藏值分布变化会对神经网络的训练造成影响,归一化在一定程度上限制了在前层的参数更新,会影响数值分布的程度]。3.轻量正则作用,标准偏差的缩放和减去均值带来的额外噪音。

Batch Norm的使用注意事项

       在计算均值和方差的时候,如果样本数过多,不能对一个batch的所有样本进行均值和方差的计算,此时,需要用到一个指数加权平均的方式估算平均值和方差。

      

Softmax回归

       多分类任务,有一种logistic回归(softmax回归)针对这类问题,例如这个四分类问题,希望输出四个类分别对应的概率,最后一层是通过线性函数输出结果z,之后经过softmax激活函数,即计算e^z,然后将这四个值归一化。

       同时,softmax分类器其实是一个线性决策分类,如果不经过隐藏层,直接输入到softmax分类器中,效果如下。

如何训练softmax分类器

       Softmax类比hardmax,hardmax输出是一个one-hot向量,softmax可以看出是logistics的推广,在训练中,我们一般使用交叉熵作为损失函数,在训练过程中,期望是不断减小这个损失,类别于统计学的最大似然估计。

深度学习框架

       我们理解了算法的实现,虽然可以通过编程语言进行实现,但我们往往使用更高效的深度学习框架去做算法的实现,这会使得我们的训练更高效。Tensorflow框架应用较少,目前主流为pytorch

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梦想的小鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值