一、二次型:
1.1 定义
含有 n n n个变量 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,…,xn的二次齐次函数(如果变量乘以一个系数,则新函数会是原函数再乘上系数的某次方倍):
f ( x 1 , x 2 , … , x n ) = a 11 x 1 2 + a 22 x 2 2 + ⋯ + a n n x n 2 + 2 a 12 x 1 x 2 + 2 a 13 x 1 x 3 + ⋯ + 2 a n − 1 , n x n − 1 x n f(x_1,x_2,\dots,x_n)=a_{11}x_1^2+a_{22}x_2^2+\dots+a_{nn}x_n^2+2a_{12}x_1x_2+2a_{13}x_1x_3+\dots+2a_{n-1,n}x_{n-1}x_n f(x1,x2,…,xn)=a11x12+a22x22+⋯+annxn2+2a12x1x2+2a13x1x3+⋯+2an−1,nxn−1xn
称为二次型。
取 a i j = a j i a_{ij}=a_{ji} aij=aji,则 2 a i j x i x j = a i j x i x j + a j i x j x i 2a_{ij}x_ix_j=a_{ij}x_ix_j+a_{ji}x_jx_i 2aijxixj=aijxixj+ajixjxi,于是上式可写成:
f = a 11 x 1 2 + a 12 x 1 x 2 + ⋯ + a 1 n x 1 x n + a 21 x 2 x 1 + a 22 x 2 2 + ⋯ + a 2 n x 2 x n + … + a n 1 x n x 1 + a n 2 x n x 2 + ⋯ + a n n x n 2 = ∑ i , j = 1 n a i j x i x j f=a_{11}x_1^2+a_{12}x_1x_2+\dots+a_{1n}x_1x_n\\\quad\quad+a_{21}x_2x_1+a_{22}x_2^2+\dots+a_{2n}x_2x_n\\\quad\quad+\dots\\\quad\quad+a_{n1}x_nx_1+a_{n2}x_nx_2+\dots+a_{nn}x_n^2\\\quad=\sum\limits_{i,j=1}^na_{ij}x_ix_j f=a11x12+a12x1x2+⋯+a1nx1xn+a21x2x1+a22x22+⋯+a2nx2xn+…+an1xnx1+an2xnx2+⋯+annxn2=i,j=1∑naijxixj
由上式,利用矩阵,二次型可表示为:
f = x 1 ( a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n ) + x 2 ( a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n ) + … + x n ( a n 1 x 1 + a x 2 x 2 + ⋯ + a n n x n ) = ( x 1 , x 2 , … , x n ) [ a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n ⋮ a n 1 x 1 + a x 2 x 2 + ⋯ + a n n x n ] = ( x 1 , x 2 , … , x n ) [ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ a n 1 a x 2 … a n n ] [ x 1 x 2 ⋮ x n ] f=x_1(a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n)\\\quad\quad+x_2(a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n)\\\quad\quad+\dots\\\quad\quad+x_n(a_{n1}x_1+a_{x2}x_2+\dots+a_{nn}x_n)\\\quad=(x_1,x_2,\dots,x_n)\begin{bmatrix} a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n \\ a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n \\ \vdots \\ a_{n1}x_1+a_{x2}x_2+\dots+a_{nn}x_n \end{bmatrix}\\\quad=(x_1,x_2,\dots,x_n)\begin{bmatrix} a_{11}&a_{12}&\dots&a_{1n} \\ a_{21}&a_{22}&\dots&a_{2n} \\ \vdots \\ a_{n1}&a_{x2}&\dots&a_{nn} \end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix} f=x1(a11x1+a12x2+⋯+a1nxn)+x2(a21x1+a22x2+⋯+a2nxn)+…+xn(an1x1+ax2x2+⋯+annxn)=(x1,x2,…,xn)⎣⎢⎢⎢⎡a11x1+a12x2+⋯+a1nxna21x1+a22x2+⋯+a2nxn⋮an1x1+ax2x2+⋯+annxn⎦⎥⎥⎥⎤=(x1,x2,…,xn)⎣⎢⎢⎢⎡a11a21⋮an1a12a22ax2………a1na2nann⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤
记:
A = [ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ a n 1 a x 2 … a n n ] , x = [ x 1 x 2 ⋮ x n ] A=\begin{bmatrix} a_{11}&a_{12}&\dots&a_{1n} \\ a_{21}&a_{22}&\dots&a_{2n} \\ \vdots \\ a_{n1}&a_{x2}&\dots&a_{nn} \end{bmatrix},x=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix} A=⎣⎢⎢⎢⎡a11a21⋮an1a12a22ax2………a1na2nann⎦⎥⎥⎥⎤,x=⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤
则二次型可记作:
f = x T A x f=x^TAx f=xTAx
注意,对任何一个二次型函数,存在许多矩阵 A A A,它们的二次型相同。但是,只有唯一的一个对阵矩阵 A A A。因此,在讨论矩阵 A A A的二次型时,通常都假定 A A A为实对称矩阵或复共轭对称(即Hermitian)矩阵。
定义1.6.1:
一个复共轭对阵矩阵 A A A称为:
- 正定矩阵:二次型 x H A x > 0 , ∀ x ≠ 0 x^HAx>0,\forall x\ne0 xHAx>0,∀x=0
- 半正定矩阵:二次型 x H A x ≥ 0 , ∀ x ≠ 0 x^HAx\ge0,\forall x\ne0 xHAx≥0,∀x=0(也称非负定的)
- 负定矩阵:二次型 x H A x < 0 , ∀ x ≠ 0 x^HAx<0,\forall x\ne0 xHAx<0,∀x=0
- 非负定矩阵:二次型 x H A x ≤ 0 , ∀ x ≠ 0 x^HAx\le0,\forall x\ne0 xHAx≤0,∀x=0(也称非正定的)
- 不定矩阵:二次型 x T A x x^TAx xTAx既可能取正值,也可能取负值
二、矩阵的迹
定义1.6.3
n × n n\times n n×n矩阵 A A A的对角元素之和称为 A A A的迹(trace),记作 t r ( A ) tr(A) tr(A),即:
t r ( A ) = a 11 + a 22 + ⋯ + a n n = ∑ i = 1 n a i i ( 1.6.5 ) tr(A)=a_{11}+a_{22}+\dots+a_{nn}=\sum\limits_{i=1}^na_{ii} \quad(1.6.5) tr(A)=a11+a22+⋯+ann=i=1∑naii(1.6.5)
2.1 关于迹的等式
2.2 关于迹的不等式
三、行列式
一个 n × n n\times n n×n正方矩阵 A A A的行列式记作 d e t ( A ) det(A) det(A)或 ∣ A ∣ |A| ∣A∣,定义为:
d e t ( A ) = ∣ A ∣ = ∣ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ ⋮ ⋮ a n 1 a n 2 … a n n ∣ det(A)=|A|=\begin{vmatrix}a_{11}&a_{12}&\dots&a_{1n}\\a_{21}&a_{22}&\dots&a_{2n}\\\vdots&\vdots&&\vdots\\a_{n1}&a_{n2}&\dots&a_{nn}\end{vmatrix} det(A)=∣A∣=∣∣∣∣∣∣∣∣∣a11a21⋮an1a12a22⋮an2………a1na2n⋮ann∣∣∣∣∣∣∣∣∣
二、正定矩阵:
2.1 定义
定义:
设有二次型 f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx,如果对任意 x ≠ 0 x\ne0 x=0,都有 f ( x ) > 0 f(x)>0 f(x)>0( f ( 0 ) = 0 ) f(0)=0) f(0)=0),则称 f f f为正定二次型,并称对称阵 A A A是正定的;如果对任何 x ≠ 0 x\ne0 x=0都有 f ( x ) < 0 f(x)<0 f(x)<0,则称 f f f为负定二次型,并称对称阵 A A A是负定的。
推论:
对称阵 A A A为正定的充分必要条件是: A A A的特征值全为正。
2.2 从几何意义理解正定二次型
对于最简单的一元二次函数,当
x
≠
0
x \neq 0
x=0 时
f
(
x
)
>
0
f(x)>0
f(x)>0恒成立。即一元二次正定型对应的图像是开口向上,顶点在原点的抛物线,同理二元二次正定型
f
(
x
,
y
)
=
x
2
+
y
2
f(x,y)=x^2+y^2
f(x,y)=x2+y2对应的图像是开口向上,顶点在原点的抛物面。
拓展到n元正定二次型的图像也对应着一个抛物线,保证当自变量取值非零向量时,对应的函数值大于零恒成立
2.3 半正定矩阵
2.3.1 图像
同样我们可以给出二元半正定二次型的图像,即当某个自变量的特征值为0从而保证当自变量取值为非零向量时,对应的函数值大于等于0恒成立。
2.3.2 性质
- 半正定矩阵的行列式非负
- 两个半正定矩阵的和是半正定的
- 非负实数与半正定矩阵的数乘是半正定的
- 半正定矩阵的特征值都是非负的
三、Hessian矩阵:
实值函数 f ( x ) f(x) f(x)相对于 m × 1 m\times1 m×1实向量 x x x的二阶偏导是一个由 m 2 m^2 m2个二阶偏导组成的矩阵(称为Hessian矩阵),定义为:
∂ 2 f ( x ) ∂ x ∂ x T {\partial^2f(x)}\over{\partial x\partial x^T} ∂x∂xT∂2f(x)= ∂ ∂ x T \partial\over\partial x^T ∂xT∂[ ∂ f ( x ) ∂ x \partial f(x)\over\partial x ∂x∂f(x)]
或者简写为梯度的梯度:
∇ x 2 f ( x ) = ∇ x ( ∇ x f ( x ) ) \nabla^2_xf(x)=\nabla_x(\nabla_xf(x)) ∇x2f(x)=∇x(∇xf(x))
根据定义,Hessian矩阵的第 j j j列是梯度 ∂ f ( x ) ∂ x \partial f(x)\over\partial x ∂x∂f(x)= ∇ x f ( x ) \nabla_xf(x) ∇xf(x)第 j j j个分量的梯度,即:
[ ∂ 2 f ( x ) ∂ x ∂ x T \partial^2f(x)\over\partial x\partial x^T ∂x∂xT∂2f(x)]= ∂ 2 f ( x ) ∂ x i ∂ x j \partial^2f(x)\over\partial x_i\partial x_j ∂xi∂xj∂2f(x)
其方块矩阵如下所示:
[ ∂ 2 f ∂ x 1 2 ∂ 2 f ∂ x 1 ∂ x 2 … ∂ 2 f ∂ x 1 ∂ x n ∂ 2 f ∂ x 2 ∂ x 1 ∂ 2 f ∂ x 2 2 … ∂ 2 f ∂ x 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ 2 f ∂ x n ∂ x 1 ∂ 2 f ∂ x n ∂ x 2 … ∂ 2 f ∂ x n 2 ] \begin {bmatrix} {\partial ^2f \over \partial x_1^2}& {\partial ^2f \over \partial x_1 \partial x_2}& \dots & {\partial ^2f \over \partial x_1 \partial x_n} \\ {\partial ^2f \over \partial x_2 \partial x_1}& {\partial ^2f \over \partial x_2^2}& \dots & {\partial ^2f \over \partial x_2 \partial x_n}\\ \vdots & \vdots &\ddots & \vdots \\ {\partial ^2f \over \partial x_n \partial x_1}& {\partial ^2f \over \partial x_n \partial x_2} & \dots & {\partial ^2f \over \partial x_n^2} \end {bmatrix} ⎣⎢⎢⎢⎢⎢⎡∂x12∂2f∂x2∂x1∂2f⋮∂xn∂x1∂2f∂x1∂x2∂2f∂x22∂2f⋮∂xn∂x2∂2f……⋱…∂x1∂xn∂2f∂x2∂xn∂2f⋮∂xn2∂2f⎦⎥⎥⎥⎥⎥⎤
因此,Hessian矩阵可以用两步法求出:
(1)求实值函数
f
(
x
)
f(x)
f(x)关于向量变元
x
x
x的偏导数,得到实值函数的梯度
∂
f
(
x
)
∂
x
\partial f(x)\over \partial x
∂x∂f(x)
(2)再求梯度
∂
f
(
x
)
∂
x
\partial f(x)\over\partial x
∂x∂f(x)相对于
1
×
n
1\times n
1×n行向量
x
T
x^T
xT的偏导数,得到梯度的梯度即Hessian矩阵
根据以上步骤,容易得到Hessian矩阵的下列公式:
设
x
∗
x_*
x∗为目标函数的局部极小点,当目标函数
f
f
f光滑时,存在很多有效和实际的方法来识别一个点是否为局部极小点。特别地,如果
f
f
f是二次连续可微分的话,直接通过检验梯度
∇
x
f
(
x
∗
)
\nabla_xf(x_*)
∇xf(x∗)和Hessian矩阵
∇
x
2
f
(
x
∗
)
\nabla_x^2f(x_*)
∇x2f(x∗),即可判断点
x
∗
x_*
x∗是否为局部极小点(甚至是严格局部极小点)。
若 ( ∇ x ) T ∇ x (\nabla x)^T\nabla x (∇x)T∇x很小,则函数 f ( x ) f(x) f(x)的Taylor级数展开为:
f ( x + ∇ x ) = f ( x ) + ( ∇ x ) T ∇ x f ( x ) + 1 2 ( ∇ x ) T ∇ x 2 f ( x ) ∇ x f(x+\nabla x)=f(x)+(\nabla x)^T\nabla_xf(x)+\frac{1}{2}(\nabla x)^T\nabla_x^2f(x)\nabla x f(x+∇x)=f(x)+(∇x)T∇xf(x)+21(∇x)T∇x2f(x)∇x
下
如果函数f是连续的,那么它的Hessian矩阵一定是对称阵,因为对函数求偏导的顺序不影响偏导的值。
Hessian矩阵可以用于多元函数极值的判定:
两个求Hessian矩阵的例子:
https://blog.csdn.net/jbb0523/article/details/50598523
四、实对称矩阵
如果有n阶矩阵A,其矩阵的元素都为实数,且矩阵A的转置等于其本身( a i j = a j i a_{ij}=a_{ji} aij=aji),则称A为实对称矩阵。
4.1 性质
4.1.1 定理一
对称矩阵的特征值为实数、特征向量是实向量。
4.1.2 定理二
设 λ 1 , λ 2 是 实 对 称 矩 阵 A 的 两 个 特 征 值 , p 1 , p 2 是 对 应 的 特 征 向 量 , 若 λ 1 ≠ λ 2 , 则 p 1 与 p 2 正 交 设\lambda_1,\lambda_2是实对称矩阵A的两个特征值,p_1,p_2是对应的特征向量,若\lambda_1\ne\lambda_2,则p_1与p_2正交 设λ1,λ2是实对称矩阵A的两个特征值,p1,p2是对应的特征向量,若λ1=λ2,则p1与p2正交
证明:
λ
1
p
1
=
A
p
1
,
λ
2
p
2
=
A
p
2
,
λ
1
≠
λ
2
\lambda_1p_1=Ap_1,\lambda_2p_2=Ap_2,\lambda_1\ne\lambda_2
λ1p1=Ap1,λ2p2=Ap2,λ1=λ2
∵
A
对
称
,
A
=
A
T
\because A对称,A=A^T
∵A对称,A=AT
∴
λ
1
p
1
T
=
(
λ
1
p
1
)
T
=
(
A
p
1
)
T
=
p
1
T
A
T
=
p
1
T
A
\therefore \lambda_1p_1^T=(\lambda_1p_1)^T=(Ap_1)^T=p_1^TA^T=p_1^TA
∴λ1p1T=(λ1p1)T=(Ap1)T=p1TAT=p1TA
∴
λ
1
p
1
T
p
2
=
p
1
T
A
p
2
=
p
1
T
(
λ
2
p
2
)
=
λ
2
p
1
T
p
2
\therefore \lambda_1p_1^Tp_2=p_1^TAp_2=p_1^T(\lambda_2p_2)=\lambda_2p_1^Tp_2
∴λ1p1Tp2=p1TAp2=p1T(λ2p2)=λ2p1Tp2
∴
(
λ
1
−
λ
2
)
p
1
T
p
2
=
0
\therefore (\lambda_1-\lambda_2)p_1^Tp_2=0
∴(λ1−λ2)p1Tp2=0
∵
λ
1
≠
λ
2
\because \lambda_1\ne\lambda_2
∵λ1=λ2
∴
p
1
T
p
2
=
0
,
即
p
1
与
p
2
正
交
\therefore p_1^Tp_2=0,即p_1与p_2正交
∴p1Tp2=0,即p1与p2正交
4.1.3 定理三
设A为n阶对称矩阵,则必有正交矩阵P,使
P
−
1
A
P
=
Λ
P^{-1}AP=\Lambda
P−1AP=Λ,其中
Λ
\Lambda
Λ是以A的n个特征值为对角元素的对角矩阵
或:
若
A
=
A
T
若A=A^T
若A=AT
⟹
∃
∣
p
∣
≠
0
且
P
T
=
P
−
1
,
使
P
−
1
A
P
=
Λ
=
d
i
a
g
(
λ
1
,
λ
2
,
.
.
.
,
λ
n
)
\implies \exist|p|\ne0且P^T=P^{-1},使P^{-1}AP=\Lambda=diag(\lambda_1,\lambda_2,...,\lambda_n)
⟹∃∣p∣=0且PT=P−1,使P−1AP=Λ=diag(λ1,λ2,...,λn)
https://wenku.baidu.com/view/f04d366e58fafab069dc0256.html?sxts=1591661298009