1、常调节的超参数
-
学习率
-
动量梯度下降中的 k
-
每层的神经元个数 n
-
子训练集 mini-batch 的大小
-
神经网络层数 L
-
学习率控制衰减超参数 decayRate
2、调节方法
网格搜索法:效率很低,不推荐使用
随机搜索法:在合理的取值范围之内,随机选取一些点。可以尝试更多不同的超参数值,先寻找到大概适合的值,将参数确定在该
点的周围区域,然后进行更精密的搜索
3、采样标尺
随机搜索可以叫做随机采样,或者随机均匀采样。
假如取值范围是 0.0001 - 1
线性标尺:
指数标尺:
比如:
调节神经网络层数或者神经元的个数可以采用线性标尺
调节学习率应该使用指数标尺
4、调参技巧的通用性和超参数的过时性
通用性:某个领域内的调参技巧有可能同样适用于其他领域
过时性:数据量的增多、硬件的改变等有可能使得已经训练好的最优超参数不再是最优的。
5、归一化隐藏层
优点:
有助于梯度下降更快的寻找到最小值
使得隐藏层的 z = wx +b 中的 z 更加稳定,提高学习效率
具有一点正则化的味道
6、Softmax
二分类经常使用sigmod激活函数,多分类则使用Softmax激活函数
softmax会先利用输出层的 z 向量生成一个临时向量 t,然后用 t 生成 a