第三周 超参数调制、Batch正则化和深度学习框架
3.1 调试处理
1、选择超参数时,用随机选取而不是网格选取。
2、由粗糙到精细。
3.2 为超参数选择合适的范围
数轴上以对数尺度选取而不是平均选取。
如:10^ -5 to 10^ -1
3.3 超参数调试实践
Pandas VS Caviar
基于自身计算资源,一次照看一个模型(不断调整参数)或者一次并行训练多个模型(观察不同参数的区别)
3.4 归一网络的激活函数
Batch归一化
在每一个隐藏层的输入前,归一化A[l]作为下一层l+1层的输入。
这里默认归一化Z[l]再激活。
归一化:均值为0,方差为1。
Batch 归一化减少了入值改变,它使些值变得更定,之后 层就会有更坚实基。即使使入分布改变了一些,它会改变得更少。它做是当前层保 持学习,当改变时,使后层应度减小了,你可以样想,它减弱了前层参数作 与后层参数作之,它使得每层可以己学习,于其它层,有 助于加整个学习。
3.5 测试时的 Bathch Norm
在典型 Batch 归一化中,你需要用一个指数加权平均来估算,这个平均数涵盖了所有 mini-batch。
总结一下就是,在时,𝜇和𝜎2是在整个 mini-batch 上出来包含了像是 64 或 28 或其它一定数样本,但在测试时,你可能需要逐一处理样本,方法是根据你的训练集估算𝜇和𝜎2。
估算方式有很多,在实际操作中,我们常用指数加权平均来追踪在中你在训练过程中看到的𝜇和𝜎2 值。
3.6 Softmax回归
不同于 hard max回归,将最大的置为1,其他置0。softmax使用了e^x这么一个函数,并归一化概率。
值得注意的是:softmax最后形成的决策边界是线性的。
3.7 深度学习框架
利用框架,我们只需要完成正向传播,系统会自动计算反向传播,十分方便。