1, 每次训练样本数目大小最少保证不要小于目标类别的2倍,否则准确率一直上不去,假如标签有40类,则不要至少小于80,越大的话对准确度越好,但训练时间越长。
2, 使用relu激励函数要比较小心,因为他在负半轴恒等为0,训练到后期,准确度突然降为0,可以考虑是不是relu的问题
如果你的softmax层输出为nan,则可考虑是不是在计算信息交叉熵时出现了log(0)
3, 全连接层节点数对结果影响较小。
4, 更换batch大小,更换激励函数,不用从头开始训练,可以与原先保存的模型文件训练
以上仅是个人的一些经验,如有问题,欢迎讨论