什么是超参数?
比如算法中的learning rate (学习率)、iterations(梯度下降法循环的数量)、 L L L(隐藏层数目)、 n [ l ] n^{[l]} n[l](隐藏层单元数目)、choice of activation function(激活函数的选择)都需要你来设置,这些数字实际上控制了最后的参数 W W W和 b b b的值,所以它们被称作超参数。
实际上深度学习有很多不同的超参数,也有一些其他的超参数,如momentum、mini batch size、regularization parameters等等。
怎样寻找超参数的最优值?
通常你有个想法,比如你可能大致知道一个最好的学习率值,可以先试试看,然后你可以实际试一下,训练一下看看效果如何。
然后基于尝试的结果你会发现,你觉得学习率设定再提高到0.05会比较好。所以如果你不确定什么值是最好的,你大可以先试试一个学习率,再看看损失函数 J J J的值有没有下降,你必须尝试很多不同的值,并走这个循环,试各种参数。