神经网络,优化方法(SGD,Momentum,AdaGrad,RMSProp,Adam),反向传播,各个网络层的导数,神经网络的正则化总结
https://blog.csdn.net/BVL10101111/article/details/72614711
https://blog.csdn.net/u010089444/article/details/76725843
AdaDelta中表示x本身应该更新的步长,即其他优化方法中中的都算作是。
即所有方法都是为了找到尽可能正确的这个步长来更新参数,AdaDelta使用近似牛顿法的方式来更新这个步长,从而避免使用学习率参数 。