非线性优化

写在前面:

对于一维数据来说,实质是没有明确的"最速"的概念的,这个问题居然这么久才想明白(最少有一个二维才会有方向的组合)至于方向上的组合,这个问题就会简单很多,想向一个3维空间的二次曲面,做一个切平面,最速的方向自然就是函数上升最快的方向。

最速下降法,明显会过于的贪婪,只会考虑当前的梯度,先还是统一一下符合吧,令 f ( x ) f(x) f(x)代表cost fuction, F ( x ) F(x) F(x)代表 f ( x ) f(x) f(x)的平方和(最小二乘嘛,二乘自然就是指的平方了)

求解

实际还是一个函数的近似逼近,对于任意一个函数,在一个局部足够小的范围内,可以用一个高次式去对函数进行近似。传统的求导实质就是一个一阶的近似,对于一般情况取一个二阶近似就可以
F ( x + Δ x ) = F ( x ) + J Δ x + 1 2 Δ x T H Δ x ( 1 ) F(x+\Delta x)= F(x)+J\Delta x + \frac{1}{2}\Delta x^T H\Delta x\qquad(1) F(x+Δx)=F(x)+JΔx+21ΔxTHΔx(1)
一般而言,拟合的多项式次数越高,再越接近 f ( x ) f(x) f(x)的附近拟合效果自然越好,但是相应的泛化能力自然也会下降。所以一般在离最优解较远时,一般会选用一次拟合,这种做法比较贪婪,如果只使用这种操作,在最后的时刻肯定会出现折线,而二次拟合在接近最优解处能表现出更好的性质,这时一般会使用二次式。
只考虑一次优化时:
F ( x + Δ x ) ≈ F ( x ) + α J Δ x ( 2 ) F(x+\Delta x)\approx F(x)+\alpha J\Delta x\qquad(2) F(x+Δx)F(x)+αJΔx(2)
这样的话可以认为 α \alpha α为一个迭代步长, Δ x \Delta x Δx表示一个方向,我们实质需要的即是 J Δ x < 0 J\Delta x < 0 JΔx<0,令梯度方向与下降的方向夹角为 θ \theta θ,则有
J Δ x = ∥ J ∥ cos ⁡ θ   ( 3 ) J\Delta x=\lVert J\rVert \cos\theta\ \qquad(3) JΔx=Jcosθ (3)
从这个地方可以看出,梯度的负方向即为最速下降的方向。

再重新考虑二次形式:
F ( x + Δ x ) = F ( x ) + J Δ x + 1 2 Δ x T H Δ x ( 4 ) F(x+\Delta x)= F(x)+J\Delta x + \frac{1}{2}\Delta x^T H\Delta x\qquad(4) F(x+Δx)=F(x)+JΔx+21ΔxTHΔx(4)
虽然和之前的理解存在了一些偏差,但我还是试着自己给自己解释一下我现在所能理解到的全部了吧。
对于函数在x处的近似,可以记为
G ( Δ x ) = J Δ x + 1 2 Δ x T H Δ x + C ( 5 ) G(\Delta x) = J\Delta x + \frac{1}{2}\Delta x^TH\Delta x + C\qquad(5) G(Δx)=JΔx+21ΔxTHΔx+C(5)
其中c记为一个

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值