说白了,原先的式子是只考虑当前的梯度方向。现在的新式子,是同时考虑了前t-1次的方向。
因为单从式子上看,现在更新只和第t次和第t-1次有关,第t次是通过求导得到的,第t-1次的来源是每一次的递推累加得到的。
单从式子上看,这是个矢量三角形,通过β这个参数来控制他们的长,两条矢量边共同决定方向。
说白了,原先的式子是只考虑当前的梯度方向。现在的新式子,是同时考虑了前t-1次的方向。
因为单从式子上看,现在更新只和第t次和第t-1次有关,第t次是通过求导得到的,第t-1次的来源是每一次的递推累加得到的。
单从式子上看,这是个矢量三角形,通过β这个参数来控制他们的长,两条矢量边共同决定方向。