第二课优化神经网络 第三周超参数调制

第三周 超参数调制、Batch正则化和深度学习框架

3.1 调试处理

1、选择超参数时,用随机选取而不是网格选取。

2、由粗糙到精细。

3.2 为超参数选择合适的范围

数轴上以对数尺度选取而不是平均选取。

如:10^ -5 to 10^ -1

3.3 超参数调试实践

Pandas VS Caviar

基于自身计算资源,一次照看一个模型(不断调整参数)或者一次并行训练多个模型(观察不同参数的区别)

3.4 归一网络的激活函数

Batch归一化

在每一个隐藏层的输入前,归一化A[l]作为下一层l+1层的输入。

这里默认归一化Z[l]再激活。

归一化:均值为0,方差为1。

Batch 归一化减少了􏳭入值改变􏰚􏱮􏱯,它􏰚􏱊使􏰪些值变得更􏳬定,􏰄􏰅􏰆􏰇􏰚之后 层就会有更坚实􏰚基􏴞。即使使􏳭入分布改变了一些,它会改变得更少。它做􏰚是当前层保 持学习,当改变时,􏴔使后层􏰯应􏰚􏰎度减小了,你可以􏰪样想,它减弱了前层参数􏰚作􏰷 与后层参数􏰚作􏰷之􏲟􏰚􏴟􏰥,它使得􏰆􏰇每层􏱸可以􏳄己学习,􏴠􏴠􏱺􏱻于其它层,􏰪有 助于加􏰴整个􏰆􏰇􏰚学习。

3.5 测试时的 Bathch Norm

在典型􏰚 Batch 归一化􏱋􏰷中,你􏱀􏰢需要用一个指数加权平均来估算􏰸,􏰪这个平均数涵盖􏴰􏴱了所有 mini-batch。

􏱁总结一下就是,在􏰰􏰱时,𝜇和𝜎2是在整个 mini-batch 上􏲧􏰸出来􏰚包含了像是 64􏴇􏲙 或 28 􏱢􏴧 或其它一定数􏰳􏰚样本,但在测试􏲹􏰊时,你可能需要逐􏰫􏱀􏰢􏲷一处理􏰖样本,方法是根据你􏰚􏰰􏰱的训练集􏲉估算􏰸𝜇和𝜎2。

估􏰸􏰚算方式有很多􏱵,􏰖􏱷在实际操作中,我们􏲌常用􏱋􏰷指数加权平均来􏴴􏴵追踪在􏰰􏰱􏰩􏰎中你在训练过程中看􏱳到的􏰚𝜇和𝜎2 􏰚值。

3.6 Softmax回归

不同于 hard max回归,将最大的置为1,其他置0。softmax使用了e^x这么一个函数,并归一化概率。

值得注意的是:softmax最后形成的决策边界是线性的。

3.7 深度学习框架

利用框架,我们只需要完成正向传播,系统会自动计算反向传播,十分方便。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值