- 超参数调试
优先级
使用随机取值,而不是网格调参,因为随机取值能够探究更多重要参数的潜在值。
精确搜索:从粗到细的探索过程。Coarse to find. - 使用对数标尺搜索超参数
原因:当β接近于1时,结果会对细微的变化变得很敏感,beta从0.999变为0.9995时,T就从1000变为2000。 - batch norm
归一化每一层的z。
γ和β的作用是改变平均值和方差。
在使用BN时,参数b[l]可以去掉,因为 z=wa+b, μ也会存在+b,在计算z_norm时,归一化会把b消除,b没有任何作用.
batch norm 的作用:限制了在前层的参数更新会影响的数值分布的程度,即减少了输入值的分布改变的问题,避免convariate shift。归一化固定了均值和方差,使得输入值的变化减小,减少了层与层之间的联系,使每层训练更加独立,使得后层的学习变得更加容易。
增大batch_size会减小正则化。
batch norm可以起到轻微正则化的作用。
测试集使用的μ和σ2是通过训练集进行估算的,通常的方法为指数加权平均。
- softmax
softmax函数输出的是各个类别可能性的概率,对应的hardmax输出的是对应类别的0/1向量,如第二类就是[0 1 0 0]。
梯度下降
dZ[L]=A-Y