牛顿法基于一个二阶泰勒展开来近似 x (0) 附近的 f (x):
当 f 是一个正定二次函数时,牛顿法只要应用一次式 (4.12) 就能直接跳到函数的最小点。如果 f 不是一个真正二次但能在局部近似为正定二次,牛顿法则需要多次迭代应用式 (4.12) 。迭代地更新近似函数和跳到近似函数的最小点可以比梯度下降更快地到达临界点。这在接近局部极小点时是一个特别有用的性质,但是在鞍点附近是有害的。如式 (8.2.3) 所讨论的,当附近的临界点是最小点(Hessian 的所有特征值都是正的)时牛顿法才适用,而梯度下降不会被吸引到鞍点(除非梯度指向鞍点)。