二次型、正定、半正定关系

泠山

已于 2023-12-28 17:41:48 修改

阅读量2.5k

点赞数 11

分类专栏： Math 文章标签：算法 Math 线性代数

于 2023-12-27 17:59:10 首次发布

原文链接：https://www.matongxue.com/madocs/271

版权

Math 专栏收录该内容

7 篇文章

订阅专栏

二次型、正定、半正定关系

1. 二次函数的特点
2. 通过矩阵来研究二次方程

Reference：

相关文章：

特征值、奇异值分解SVD、主成分分析PCA、行列式

1. 二次函数的特点

1.1 二次函数

最简单的一元二次函数就是：
在这里插入图片描述
给它增加一次项不会改变形状：

增加常数项就更不用说了，更不会改变形状。

1.2 二次方程

下面是一个二元二次方程：
在这里插入图片描述
给它增加一次项也不会改变形状，只是看上去有些伸缩：

1.3 小结

对于二次函数或者二次方程，二次部分是主要部分，往往研究二次这部分就够了。

2. 通过矩阵来研究二次方程

因为二次函数(方程)的二次部分最重要，为了方便研究，我们把含有 $n$ 个变量的二次齐次函数：
$f(x_1, x_2, \cdot, x_n) = a_{11}x_1^2 + a_{22}x_2^2 + \cdot\cdot\cdot + a_{nn}x_n^2 + 2a_{12}x_1x_2 + 2a_{13}x_1x_3 + \cdot\cdot\cdot + 2a_{n-1,n}x_{n-1}x_{n}$ 二次齐次方程称为二次型。

2.1 二次型矩阵

实际上我们可以通过矩阵来表示二次型：
在这里插入图片描述
更一般的：
请添加图片描述
可以写成更线代的形式：

所以有下面一一对应的关系：
$对称矩阵\Leftrightarrow 二次型矩阵 \Leftrightarrow 二次型$ 在线代里面，就是通过一个对称矩阵，去研究某个二次型。

2.2 通过矩阵来研究有什么好处

2.2.1 圆锥曲线

我们来看下，这是一个圆：
在这里插入图片描述
改变一下这个二次型矩阵：

哈，原来椭圆与圆之间是线性关系呐(通过矩阵变换就可以从圆变为椭圆)。
再改变一下：

咦，双曲线和圆之间也是线性关系(准确说是仿射的)。

其实圆、椭圆、双曲线之间关系很紧密的，统称为圆锥曲线，都是圆锥体和平面的交线：请添加图片描述
从上面动图可看出，一个平面在圆锥体上运动，可以得到圆、椭圆、双曲线，这也是它们之间具有线性关系的来源（平面的运动是线性的、或者是仿射的）。

2.2.2 规范化

再改变下矩阵：
在这里插入图片描述
这个椭圆看起来有点歪，不太好处理，我们来把它扶正，这就叫做规范化。

如果我们对矩阵有更深刻的认识，那么要把它扶正很简单。

往下读之前，请先参看如何理解特征值下的回答。

首先，矩阵代表了运动，包含：

旋转
拉伸
投影

对于方阵，因为没有维度的改变，所以就没有投影这个运动了，只有：

旋转
拉伸

具体到上面的矩阵：
在这里插入图片描述
我把这个矩阵进行特征值分解：

注意图上提到的正交很重要，为什么重要，可以参看在如何理解特征值中的解释。

对于二次型矩阵，都是对称矩阵，所以特征值分解总可以得到正交矩阵与对角矩阵。

特征值分解实际上就是把运动分解了：
在这里插入图片描述
那么我们只需要保留拉伸部分，就相当于把矩阵扶正（图中把各自图形的二次型矩阵标注出来了）：

所以，用二次型矩阵进行规范化是非常轻松的事情。

2.2.3 正定

正定是对二次函数有效的一个定义，对方程无效。

对于二次型函数， $f(\boldsymbol{x})=\boldsymbol{x}^T\boldsymbol{Ax}$ ：

$f(X)>0,x\neq 0, x\in\mathbb{R}$ ，则 $f$ 为正定二次型， $A$ 为正定矩阵；
$f(X)\geq0,x\neq 0, x\in\mathbb{R}$ ，则 $f$ 为半正定二次型， $A$ 为半正定矩阵；
注意，半正定矩阵是不可逆的。我们知道，当特征值等于 $0$ 就不可逆了。半正定可以写成正交特征向量为基的对角矩阵，正交矩阵对矩阵det无影响所以在判断正负的时候可以忽略。正定矩阵对角化后特征值都是正的，半正定则意味着至少有一个特征向量是0，使得存在 $\boldsymbol{x}^T\boldsymbol{Ax}=0$ 。又因为相似不改变矩阵的det，所以半正定矩阵 det=0，不可逆。
$f(X)<0,x\neq 0, x\in\mathbb{R}$ ，则 $f$ 为负定二次型， $A$ 为负定矩阵；
$f(X)\leq0,x\neq 0, x\in\mathbb{R}$ ，则 $f$ 为半负定二次型， $A$ 为半负定矩阵；
以上皆不是，就叫做不定。

从图像上看，这是(注意上面 $x\neq 0$ 的条件)

正定：
$f(\boldsymbol{x})=x_{1}^{2}+x_{2}^{2}=\boldsymbol{x}^{\mathrm{T}}\left(\begin{array}{ll} 1 & 0 \\ 0 & 1 \end{array}\right) \boldsymbol{x}$
负定：
$f(\boldsymbol{x})=-x_{1}^{2}-x_{2}^{2}=\boldsymbol{x}^{\mathrm{T}}\left(\begin{array}{ll} -1 & 0 \\ 0 & -1 \end{array}\right) \boldsymbol{x}$
半正定：
不定：
$f(\boldsymbol{x})=3x_{1}^{2}-7x_{2}^{2}=\boldsymbol{x}^{\mathrm{T}}\left(\begin{array}{ll} 3 & 0 \\ 0 & -7 \end{array}\right) \boldsymbol{x}$

既然二次型用矩阵来表示了，那么我们能否通过矩阵来判断是否正定呢？-------- 特征值都大于0，则为正定矩阵。或者使用以下方式：

2.2.3.1 赫尔维茨定理

可以通过下面这个定理来判断正定与负定：

已知二次型 $f(\boldsymbol{x})=\boldsymbol{x}^T\boldsymbol{Ax}$ ，其为正定的充分必要条件是， $\boldsymbol{A}$ 的各阶顺序主子式都为正，即：
$a_{11}>0, \left|\begin{array}{ll} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array}\right|>0, \cdots,\left|\begin{array}{ccc} a_{11} & \cdots & a_{1 n} \\ \vdots & \vdots & \\ a_{n 1} & \cdots & a_{n n} \end{array}\right|>0$ 为负定的充分必要条件是，奇数阶顺序主子式为负，而偶数阶顺序主子式为正，即：
$(-1)^{r}\left|\begin{array}{ccc} a_{11} & \cdots & a_{1 r} \\ \vdots & & \vdots \\ a_{r 1} & \cdots & a_{r r} \end{array}\right|>0 (r=1,2, \cdots, n)$ 这个定理称为赫尔维茨定理(Hurwitz theorem)。

这里提一下该定理在数学中的应用，如果学过《单变量微积分》会知道，如果知道二阶导数和 $0$ 的关系，就可以知道极值点是极大，还是极小：
请添加图片描述
但到了《多变量微积分》的时候，二阶导数就是一个二次型矩阵，也就是下面说的海森矩阵，这个时候就需要通过正定与负定来描述它和 $0$ 的关系：

设函数 $z = f (x, y)$ 在点 $x_0,y_0)$ 的某邻域内连续且有一阶及二阶连续偏导数，则其二阶导数，即海森矩阵为：
$H=\frac{\partial^{2} z}{\partial(x, y)^{2}}=\left(\begin{array}{ll} f_{x x} & f_{x y} \\ f_{y x} & f_{y y} \end{array}\right)$ 如果又有：
$f_x(x_0, y_0) = f_y(x_0, y_0)=0$ 那么：

$f(x_0, y_0)$ 为极大值，需要满足矩阵 $H$ 为负定，即 $f_{xx}<0$ 且 $∣ H ∣ > 0$ (根据赫尔维茨定理，正定的条件是奇数阶顺序主子式为负，而偶数阶顺序主子式为正，仅在这个公式中，一阶顺序主子式为 $f_{xx}$ ，二阶顺序主子式为 $∣ H ∣$ )；
$f(x_0, y_0)$ 为极小值，需要满足矩阵 $H$ 为正定，即 $f_{xx}>0$ 且 $∣ H ∣ > 0$ (根据赫尔维茨定理，正定的条件是各阶顺序主子式都为正，仅在这个公式中，一阶顺序主子式为 $f_{xx}$ ，二阶顺序主子式为 $∣ H ∣$ )；
$f(x_0, y_0)$ 为非极值点，当 $∣ H ∣ < 0$ ；
$f(x_0, y_0)$ 无法判断是否为极值点，当 $∣ H ∣ = 0$ 。