围绕着使Loss到达全局最优的目标,从梯度下降、学习率、batch、归一化等等角度阐述炼丹的经验。 【01】临界点 Loss如果没有到达全局最优点,就一定是到了局部最优吗?未必—— 这个很好理解,就像 y = x 3 y = x^3 y=x3在