deelearning.ai学习笔记——参数调试、Batch正则化和程序框架

超参数设定(调试处理)

需要处理的参数:
学习率α,动量梯度下降的参数β,选择的层数,mini-batch的大小等。其中最重要的是学习率α
如何选择调试值
(1)网格中取样点:选择参数效果好的点
(2)随机选择点(深度学习)
在进行超参数取值时,采用由粗到细的策略。具体解释为在进行取值试验时,发现某个效果最好的点,然后在这个点周围取一些点,放大这一区域,进行更加密集的取点。
选择合适的学习率
(1)数轴,进行随机均匀取值
(2)用对数标尺搜索:在对数轴随机取点(更合理)
选择合适的β值
由于计算加权平均值,需要探究1-beta 在0.1~0.0001的合适取值
如何搜索合适的超参数
(1)babysitting one model
一次只负担起一个模型或者一小批模型,只能逐渐改良(Panda)
(2) training mangy model in parallel
同时试验多种模型,设置一些超参数,快锁选择工作效果好的那个(Caviar)
对于这两种方式的选择是根据计算资源决定的,计算资源丰富的话,直接采用Caviar的方式

Batch 归一化

(1)对于逻辑回归中个,采用归一化输入特征可以加快学习过程
(2)对于更深的模型,尤其是有多层的神经网络,要归一化激活值,采用Batch 归一化。
如何使用Batch归一化
这里写图片描述
Batch 归一化的作用是使用的归一化过程不限于输入层,也使用在神经网络中的深度隐藏层,使得隐藏单元值不一定必须是平均值为0和方差为1。
Batch归一化在神经网络中的应用
Batch归一化:将z的值进行batch 归一化,这个过程用β和γ控制,这样会得到一个新的规范化的z值然后将其输入激活函数得到a,重复这样的过程,计算下一层。这里的β和梯度下降中是不同的
通常是在mini-batch一起使用的。
为什么BN 有效
(1)和归一化输入类似,加速学习
(2)可以使权重比你的网络更加滞后或者深层
BN,可以减少隐藏值分布的变化数量,主要原因是限制了前层的参数更显,会影响数值分布的程度。还可以减少输入值改变的问题;还具有轻微的正则化效果。和dropout 类似
测试中BN
BN是将数据以mini-batch的形式逐一处理,在测试中,需要对每个样本逐一处理。mini-batch计算均值和方差时通常是通过指数加权平均来估算的。

Softmax回归

逻辑回归是进行二分类的,对于多分类的问题,通常用softmax 回归。
具体操作是:
对于一个多分类问题(分为4 类),输出层的单元数为4,我们需要告诉输出层单元这4种类型每个概率有多大,这些概率的和为1,为此需要在输出层的前面一层加入一个Softmax层,在神经网络中最后一层,计算各个线性部分,算出z之后,需要用softmax激活函数,(具体过程需要找书)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值