动量梯度下降法 RMSprop(均方根传递) Adam优化算法(动量+rmsprop) 学习率衰减 局部最优的问题 当参数点多的时个,鞍点 调试处理 重要程度 a参数最重要<橙色<蓝色,beta1,beta2,gama一般默认参数 为超参数选择合适的范围 当beta趋于1时,越敏感(1/1-beta) 超参数训练的实践:pandas vs caviar 正则化网络的激活函数(批量归一化) 对z1归一化要普遍得多 sigm e:避免分母为0 Y,和beta可以从模型中学习 深度神经网络的batch-norm batch norm 为什么 奏效 测试时的batch-norm 2 ↩︎