今天在写代码的时候
才发现一个以前忽略的问题
在梯度下降与牛顿法的优化函数中,都是最二次型进行优化,因此计算偏导数的时候会有一个原来的函数项,这个函数项是一个求和项,因此会很大,导致在进行片导数迭代的时候出现问题,所以往往在前面处以一个项数
而在高斯牛顿中,直接对函数进行泰勒展开,没有这个项,J的计算直接就是原函数的片导数,然后再按照残差项数进行求和
今天在写代码的时候
才发现一个以前忽略的问题
在梯度下降与牛顿法的优化函数中,都是最二次型进行优化,因此计算偏导数的时候会有一个原来的函数项,这个函数项是一个求和项,因此会很大,导致在进行片导数迭代的时候出现问题,所以往往在前面处以一个项数
而在高斯牛顿中,直接对函数进行泰勒展开,没有这个项,J的计算直接就是原函数的片导数,然后再按照残差项数进行求和