归一化的作用:
当分割超平面改变时,预测分数变化较小。这样,神经网络容易训练。
-------------------------------
当各个超参数的作用不一样大(神经网络就是这样),random search 理论上更有优势。
------------------------------
sgd的问题:
(1)由于各个参数量级不一致,迭代呈之字形,很慢
(2)在接近局部极值的地方,梯度很慢,可能卡住(实际由于参数空间维度高,不会,但是慢)
(3)sgd一次一个样本,不能反映整体训练集,具有噪声。
-----------------------------------------------------------------------------------------
momentum:
(1)积累动量,在极值点附件梯度不会太小,可以冲过极值点
(2)无关方向的梯度被平均抵消了,有关方向的梯度变大了。
---------------------------------------------------------------