- 参数处理
各种参数之间的重要性是有差别的。Alpha1,beta,beta1,beta2,epsilon.(0.9,0.999,10^-8.)hidden units, layers, learning-rate decay3, mini-batch2
网格法一ban不太好,try random values ,(我们探究了更多的值)
Coarse to fine (从粗糙到精细) - 为超参数选择合适的范围
参数alpha:1。随机的均匀取值
2。进行一个log,得到一个范围,在这个范围内随机取值
Beta:1-beta (0.1,0.0001) beta越接近1,取值需要更加的精细。
3.超参数的实践:pandas, caviar
Babysitting one model 没有足够机器,只有一个模型。每天都在修改
Training many models in parallel 选择最好的 正则化网络的激活函数
在每一个隐层进行一个归一化加速训练。不只是输入。
我也许不想隐层的 均值和方差分别是0和1。
batch-norm
其实,在使用batch-norm可以去掉参数b,因为最后还是要减去的。用beta 来控制,这是一个控制参数
深度学习(参数选择)
最新推荐文章于 2024-05-15 07:59:24 发布