引用机器学习书上的解释:
累积 BP 算法与标准 BP 算法都很常用.一般来说,标准 BP 算法每次更新只针对单个样例?参数更新得非常频繁,而且对不同样例进行更新的效果可能出现"抵消"现象.因此,为了达到同样的累积误差极小点 标准 BP 算法往往需进行更多次数的法代.累积 BP 算法直接针对累积误差最小化,它在 卖取整个训练集 一遍后才对参数进行更新,其参数更新的频率低得多.但在很多任务中,累积误差下降到一定程度之后,进一步下降会非常缓慢,这时标准 BP 往往会更快获得较好的解,尤其是在训练非常大时更明显.
标准 BP 算法和累积 BP算法的区别类似于随机梯度下降(stochastic gradient descent ,简称 SGD) 与标准梯度下降之间的区别.