机器学习4 - 牛顿法求最值

公式

θ(t+1)=θ(t)H1θl

海森矩阵

Hij=2lθiθj

推导

泰勒展开式

f(x)=f(x0)+f(1)(xo)(xx0)+...+f(n)(x0)n!(xx0)n+f(n+1)(xo+θ(xx0))(n+1)!(θ(xx0))n+1

多元函数泰勒展开

f(X)=f(X0)+(XX0)Tf(X0)+...+1n![(XX0)T]nf(X0)+1(n+1)![θ(XX0)T]n+1f(X0+θ(XX0))

取n=2

f(X)=f(X0)+(XX0)Tf(X0)+12(XX0)Tf(X0)Tf(X0)(XX0)+o(XX02)

f(X0)Tf(X0)=2f(X0)=H(X0) Hessian 矩阵
X12(XX0)Tf(X0)Tf(X0)(XX0)=X12(XX0)TH(X0)(XX0)=12Xtr((XX0)TH(X0)(XX0))=12Xtr(XTH(X0)XX0TH(X0)XXTH(X0)X0+X0TH(X0)X0)=12Xtr(XXTH(X0))Xtr(XX0TH(X0))Xtr(XX0THT(X0))=12(H(X0)X+HT(X0)XHT(X0)X0H(X0)X0)=12(H(X0)+HT(X0))(XX0)=H(X0)(XX0)

Xf(X)=X(f(X0)+(XX0)Tf(X0)+12(XX0)Tf(X0)Tf(X0)(XX0))=f(X0)+H(X0)(XX0)

f(X) 取最值时
Xf(X)==0

可得
(XX0)=H1(X0)f(X0)X=X0H1(X0)f(X0)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
我的思路是这样的: 最速下降能找出全局最优点,但在接近最优点的区域内就会陷入“齿型”迭代中,使其每进行一步迭代都要花掉非常久的时间,这样长久的等待是无忍受的,不信你就在我那个程序的第一步迭代中把精度取得很小如:0.000000001等,其实我等过一个钟都没有什么结果出来。 再者我们考究一下 牛顿迭代最优问题,牛顿相对最速下降的速度就快得多了,而且还有一个好处就是能高度逼近最优,而不会出现死等待的现象。 如后面的精度,你可以取如:0.0000000000001等。 但是牛顿也有缺点,就是要的初始非常严格,如果取不好,逼近的最优解将不收敛,甚至不是最优解。 就算收敛也不能保证那个结就是全局最优解,所以我们的出发点应该是:为牛顿找到一个好的初始点,而且这个初始点应该是在全局最优点附近,这个初始点就能保证牛顿高精度收敛到最优点,而且速度还很快。 思路概括如下: 1。用最速下降在大范围找到一个好的初始点给牛顿:(最速下降在精度不是很高的情况下逼近速度也是蛮快的) 2。在最优点附近改用牛顿,用最速下降找到的点为牛顿的初始点,提高逼近速度与精度。 3。这样两种方相结合,既能提高逼近的精度,还能提高逼近的速度,而且还能保证是全局最优点。这就充分吸收各自的优点,扬长避短。得到理想的结果了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值