向量投影证明
b
1
=
d
∗
a
1
∣
a
1
∣
d
=
∣
a
2
∣
∗
c
o
s
θ
c
o
s
=
(
a
2
,
a
1
)
∣
a
2
∣
∣
a
1
∣
b_1 = d * \frac{a_1}{|a_1|} \\ d = |a_2| * cos\theta \\ cos = \frac{(a_2,a_1)}{|a_2||a_1|}
b1=d∗∣a1∣a1d=∣a2∣∗cosθcos=∣a2∣∣a1∣(a2,a1)
由上面3个式子最终得到
b
1
=
(
a
2
,
a
1
)
(
a
1
,
a
1
)
a
1
b1 = \frac{(a_2,a_1)}{(a_1,a_1) } a_1
b1=(a1,a1)(a2,a1)a1
施密特正交化
我们想要构造正交的基坐标系,我们希望各个坐标最好是能够互相正交的,我们让
b
1
=
a
1
b_1 = a_1
b1=a1
另一个坐标应该是
b
2
b_2
b2,这个坐标可以根据向量的运算得到
b
2
=
a
2
−
b
1
b
1
=
a
2
,
b
1
(
b
1
,
b
1
)
b
1
b_2 = a_2 - b_1 \\ b_1 = \frac{a_2,b_1}{(b_1,b_1)} b1
b2=a2−b1b1=(b1,b1)a2,b1b1
拓展到高维度也是同样道理,具体可以参考施密特正交化高维度的方法。
最速下降法
二次型
二次型是一个从向量到标量的函数:
f
(
x
)
=
1
2
x
T
A
x
−
b
x
+
c
f(x) = \frac{1}{2} x^{T} A x - bx + c
f(x)=21xTAx−bx+c
它的导数是:
A
x
−
b
=
0
A
x
=
b
Ax-b = 0 \\ Ax = b
Ax−b=0Ax=b
我们可以将计算
A
x
=
b
Ax= b
Ax=b转为计算二次型的最值问题。
上图为不同的 A 对 f(x) 的图像的影响。(a)正定矩阵的二次型;(b)负定矩阵的二次型;©奇异矩 阵和非正定矩阵的二次型;(d)不定矩阵的二次型:此时解是一个鞍点,梯度法和 CG 均无法处理该问题。
下降方向
最速下降法也就是梯度法,其中梯度是函数值变化最大的方向。最终通过求导的方式来确定步长。
d
=
−
∇
f
(
x
)
x
i
+
1
=
x
i
+
α
d
d = - \nabla f(\bold x) \\ x_{i+1} = x_i + \alpha d \\
d=−∇f(x)xi+1=xi+αd
证明垂直和最佳步长
现在我们已经确定了下降方向,接下来我们要确定下降的步长
α
\alpha
α, 步长我们我们使用精准的公式法进行计算。我们令函数为关于
ψ
(
α
)
=
f
(
x
i
+
1
)
∇
ψ
(
α
)
=
∂
f
(
x
i
+
1
)
∂
α
=
∂
f
(
x
i
+
1
)
∂
x
i
+
1
∂
x
i
+
1
∂
α
=
(
A
x
i
+
1
−
b
)
d
i
=
d
i
+
1
d
i
=
0
\psi(\alpha) = f(x_{i+1}) \\ \\ \nabla \psi(\alpha)=\frac{\partial f(x_{i+1})}{\partial \alpha} = \frac{\partial f(x_{i+1})}{\partial x_{i+1}} \frac{\partial x_{i+1}}{\partial \alpha} = (A\bold x_{i+1} -b) \bold d_i = d_{i+1} d_i = 0
ψ(α)=f(xi+1)∇ψ(α)=∂α∂f(xi+1)=∂xi+1∂f(xi+1)∂α∂xi+1=(Axi+1−b)di=di+1di=0
所以证明了两次的搜索方向是互相垂直的。下面将计算出
α
\alpha
α的具体数值:
d
i
+
1
d
i
=
(
A
x
i
+
1
−
b
)
T
d
=
(
A
(
x
i
+
α
d
)
−
b
)
T
d
i
=
(
A
x
i
+
α
A
d
i
−
b
)
T
d
i
=
(
A
x
i
−
b
+
α
A
d
i
)
T
d
i
=
(
−
d
i
+
α
A
d
i
)
T
d
i
=
−
d
i
T
d
i
+
α
d
i
T
A
d
i
=
0
\bold d_{i+1} \bold d_i \\ = (A\bold x_{i+1} - b)^T \bold d \\ = (A(x_i + \alpha d) - b)^T d_i \\ = (Ax_i + \alpha A d_i -b)^T d_i \\ = (Ax_i -b + \alpha A d_i)^Td_i \\ = ( -d_i + \alpha A d_i)^T d_i \\= -d_i ^T d_i + \alpha d^T_i A d_{i} =0
di+1di=(Axi+1−b)Td=(A(xi+αd)−b)Tdi=(Axi+αAdi−b)Tdi=(Axi−b+αAdi)Tdi=(−di+αAdi)Tdi=−diTdi+αdiTAdi=0
化简得到
α = d i T d i d i T A d i \alpha = \frac{d_i^Td_i}{d_i^TAd_i} α=diTAdidiTdi