超参数有哪些:
学习率 learning rate,决定你的参数如何进化,或者梯度下降法循环的数量。
隐层数量 hidden layers L
隐藏单元 hidden units
激活函数
momentum
minibatch size
正则化参数
这些参数的设置决定了最后的参数W和b.
对于超参数的设置,可以进行不断的尝试,深度学习是一个基于时间的过程。例如learning rate,可以先尝试0.01,看看cost function J是否下降,再尝试其他的值,看是否下降的更快,收敛到更低的值。
在模型实际应用以后,或者你使用了几个月之后,超参数的最优质是会变的,因为受到cpu、gpu、网络、数据等的影响,所以需要经常试试不同的超参数,勤于检验结果,并且保留交叉检验 cross validation 或其他的检验方法。