【最优化方法】无约束非线性函数

向量投影证明

b 1 = d ∗ a 1 ∣ a 1 ∣ d = ∣ a 2 ∣ ∗ c o s θ c o s = ( a 2 , a 1 ) ∣ a 2 ∣ ∣ a 1 ∣ b_1 = d * \frac{a_1}{|a_1|} \\ d = |a_2| * cos\theta \\ cos = \frac{(a_2,a_1)}{|a_2||a_1|} b1=da1a1d=a2cosθcos=a2a1(a2,a1)
由上面3个式子最终得到
b 1 = ( a 2 , a 1 ) ( a 1 , a 1 ) a 1 b1 = \frac{(a_2,a_1)}{(a_1,a_1) } a_1 b1=(a1,a1)(a2,a1)a1

施密特正交化


我们想要构造正交的基坐标系,我们希望各个坐标最好是能够互相正交的,我们让
b 1 = a 1 b_1 = a_1 b1=a1
另一个坐标应该是 b 2 b_2 b2,这个坐标可以根据向量的运算得到
b 2 = a 2 − b 1 b 1 = a 2 , b 1 ( b 1 , b 1 ) b 1 b_2 = a_2 - b_1 \\ b_1 = \frac{a_2,b_1}{(b_1,b_1)} b1 b2=a2b1b1=(b1,b1)a2,b1b1
拓展到高维度也是同样道理,具体可以参考施密特正交化高维度的方法。

最速下降法

二次型

二次型是一个从向量到标量的函数:
f ( x ) = 1 2 x T A x − b x + c f(x) = \frac{1}{2} x^{T} A x - bx + c f(x)=21xTAxbx+c
它的导数是:
A x − b = 0 A x = b Ax-b = 0 \\ Ax = b Axb=0Ax=b
我们可以将计算 A x = b Ax= b Ax=b转为计算二次型的最值问题。
在这里插入图片描述
上图为不同的 A 对 f(x) 的图像的影响。(a)正定矩阵的二次型;(b)负定矩阵的二次型;©奇异矩 阵和非正定矩阵的二次型;(d)不定矩阵的二次型:此时解是一个鞍点,梯度法和 CG 均无法处理该问题。

下降方向

最速下降法也就是梯度法,其中梯度是函数值变化最大的方向。最终通过求导的方式来确定步长。
d = − ∇ f ( x ) x i + 1 = x i + α d d = - \nabla f(\bold x) \\ x_{i+1} = x_i + \alpha d \\ d=f(x)xi+1=xi+αd

证明垂直和最佳步长

现在我们已经确定了下降方向,接下来我们要确定下降的步长 α \alpha α, 步长我们我们使用精准的公式法进行计算。我们令函数为关于
ψ ( α ) = f ( x i + 1 ) ∇ ψ ( α ) = ∂ f ( x i + 1 ) ∂ α = ∂ f ( x i + 1 ) ∂ x i + 1 ∂ x i + 1 ∂ α = ( A x i + 1 − b ) d i = d i + 1 d i = 0 \psi(\alpha) = f(x_{i+1}) \\ \\ \nabla \psi(\alpha)=\frac{\partial f(x_{i+1})}{\partial \alpha} = \frac{\partial f(x_{i+1})}{\partial x_{i+1}} \frac{\partial x_{i+1}}{\partial \alpha} = (A\bold x_{i+1} -b) \bold d_i = d_{i+1} d_i = 0 ψ(α)=f(xi+1)ψ(α)=αf(xi+1)=xi+1f(xi+1)αxi+1=(Axi+1b)di=di+1di=0
所以证明了两次的搜索方向是互相垂直的。下面将计算出 α \alpha α的具体数值:
d i + 1 d i = ( A x i + 1 − b ) T d = ( A ( x i + α d ) − b ) T d i = ( A x i + α A d i − b ) T d i = ( A x i − b + α A d i ) T d i = ( − d i + α A d i ) T d i = − d i T d i + α d i T A d i = 0 \bold d_{i+1} \bold d_i \\ = (A\bold x_{i+1} - b)^T \bold d \\ = (A(x_i + \alpha d) - b)^T d_i \\ = (Ax_i + \alpha A d_i -b)^T d_i \\ = (Ax_i -b + \alpha A d_i)^Td_i \\ = ( -d_i + \alpha A d_i)^T d_i \\= -d_i ^T d_i + \alpha d^T_i A d_{i} =0 di+1di=(Axi+1b)Td=(A(xi+αd)b)Tdi=(Axi+αAdib)Tdi=(Axib+αAdi)Tdi=(di+αAdi)Tdi=diTdi+αdiTAdi=0
化简得到

α = d i T d i d i T A d i \alpha = \frac{d_i^Td_i}{d_i^TAd_i} α=diTAdidiTdi

共轭梯度下降

###

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值