矩阵论-定义、符号、以及相关理论

最新推荐文章于 2025-04-15 15:45:35 发布

MadJieJie

最新推荐文章于 2025-04-15 15:45:35 发布

阅读量1.1w

点赞数 2

分类专栏： Fundamentals of maths

若有帮助，请点赞&收藏，转载请标注出处。

本文链接：https://blog.csdn.net/MadJieJie/article/details/116641234

版权

Fundamentals of maths 专栏收录该内容

8 篇文章

订阅专栏

矩阵的秩 (rank)

符号： $\ or \ rank(A)$
定义：在线性代数中，一个矩阵A的列秩是A的线性独立的纵列的极大数目。类似地，行秩是A的线性无关的横行的极大数目。即如果把矩阵看成一个个行向量或者列向量，秩就是这些行向量或者列向量的秩，也就是极大无关组中所含向量的个数。
MATLAB求秩函数： rank()

矩阵内积 (Inner Product of Matrices)

符号： $\langle., .\rangle$
目的：度量长度。
定义：列向量 $\mathbf{a}$ 与行向量 $\mathbf{b}$ 的内积是指：组成 $\mathbf{a}$ 的第一个元素与组成 $\mathbf{b}$ 的第一个元素的乘积，依次，m个这样的乘积的加和。例如，
$<\mathbf{a},\mathbf{b}>= \left(\begin{array}{c} a_{1} \\ a_{2} \end{array}\right) \left(\begin{array}{ll} b_{1} & b_{2} \end{array}\right) =a_{1} b_{1} + a_{2} b_{2}$
矩阵 $\mathbf{A}$ 与矩阵 $\mathbf{B}$ 的内积是指：组成 $\mathbf{A}$ 的第一个向量与组成 $\mathbf{B}$ 的第一个向量的内积，依次，m个这样的内积的加和。
$<\mathbf{A},\mathbf{B}>=\sum^n_{i=1}\sum^n_{j=1}a_{ij}*b_{ij}$
例如
$<\mathbf{A},\mathbf{B}>= \left(\begin{array}{c} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array}\right) \left(\begin{array}{ll} b_{11} & b_{12} \\ b_{21} & b_{22} \end{array}\right) =\left(\begin{array}{ll} a_{11}+b_{11} & a_{12}+b_{12} \\ a_{21}+b_{21} & a_{22}+b_{22} \end{array}\right)$
另一种定义: 令 $V$ 是定义在场 $\mathbf{F}$ ( $\mathbf{F} = \mathbf{R} \ or \ \mathbf{C}$ )上的向量空间。如果对于任意 $\in V$ 和 $c\in \mathbf{F}$ ，函数 $\left< \cdot ,\cdot \right>:V\times V\to \mathbf{F}$ 满足下列条件，则它是一个内积(inner product)。
$\begin{aligned} &(1) \ \ \ ⟨x,x⟩ \ge 0 , & \mathrm{Nonnegativity}（非负） \\ &(1a) \ ⟨x,x⟩=0, &\mathrm{if \ and \ only \ if \ x=0 \ Positivity}（永正） \\ &(2)\ \ \ ⟨x+y,z⟩=⟨x,z⟩+⟨y,z⟩, &\mathrm{Additivity}（加法） \\ &(3)\ \ \ <cx,y>= c<x,y>, &\mathrm{Homogeneity}（同质） \\ &(4)\ \ \ <x,y>≤\overline{<y,x>}, &\mathrm{Hermitian \ Property}（共轭对称）\end{aligned}$ 只满足(1), (2), (3), (4)而不满足(1a)的称为半内积（semi-inner product）。

Cauchy-Shwarz inequality

定理 (Cauchy-Shwarz inequality). $\left< \cdot ,\cdot \right>$ 是定义在向量空间 $V$ 上的内积，则对于任意 $x,y\in V$
${\left |\left< x ,y \right> \right|}^2 \le \left< x ,x \right>\left< y ,y \right> \quad$
当且仅当(if and only if) x 和 y 线性相关(linearly dependent)，不等式取等号。

标量形式表示为 $(\sum_{i=1}^{n}x_iy_i)^2 \le (\sum_{i=1}^{n}x_i^2 )(\sum_{i=1}^{n}y_i^2)$

Proof. 令 $x,y\in V$ ，若 $x = y = 0$ ，则不等式显然成立，所以假设其中一个是非零向量，不失一般性，假设 $y\ne 0$ ，令 $v=\left< y ,y \right>x - \left< x ,y \right>y$ ，有：
$\begin{aligned} 0\le \left< v,v \right>&=\left< \left< y ,y \right>x - \left< x ,y \right>y ,\left< y ,y \right>x - \left< x ,y \right>y \right> \\ &=\left< y ,y \right>^2 \left< x,x \right> -\left< y,y \right>\overline{ \left< x,y \right>}\left< x,y \right>-\left< x,y \right>\left< y,x \right> \left< y,y \right> + \left< y,y \right>\overline{ \left< x,y \right>}\left< x,y \right> \\ &=\left< y ,y \right>^2\left< x,x \right> - \left< y ,y \right> {\left |\left< x,y \right> \right|}^2 \\ &=\left< y ,y \right>(\left< x,x \right>\left< y ,y \right>-{\left |\left< x,y \right> \right|}^2)\end{aligned}$
因为 $y\ne 0$ ，即 $\left< y ,y \right> > 0$ ，则推出 $\left< x,x \right>\left< y ,y \right>-{\left |\left< x,y \right> \right|}^2 \ge 0$ ，只有当 $v = 0$ 的时候，等式成立，即 $v=\left< y ,y \right>x - \left< x ,y \right>y=0$ ，也就是说 $x$ 和 $y$ 线性依赖。

推论 1.5. 如果 $\left< \cdot ,\cdot \right> $是定义在实数或者复数域向量空间$ V$ 上的内积，则函数 $\|\cdot\|:V\to [0,\infty)$ ， $\|x\|= \left< x,x \right>^{1/2}$ 是向量空间 $V$ 上的一个范式。这样的范式(norm)被称为从内积获得(derived from an inner product)。

哈达玛积（Hadamard Product ）

符号: $\circ$
LeTex : \circ
定义：哈达玛积 ( Hadamard product ) 是矩阵的一类运算，若 $\boldsymbol{A}=(a_{ij})和\boldsymbol{B}=(b_{ij})$ 是两个同阶矩阵，若 $c_{ij}=a_{ij}×b_{ij}$ ,则称矩阵 $\boldsymbol{C}=(c_{ij})$ 为 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 的哈达玛积，记为 $\boldsymbol{A} \ \circ \boldsymbol{B}$ ，具体为：
$\left[\begin{array}{cccc} a_{11} b_{11} & a_{12} b_{12} & \cdots & a_{1 n} b_{1 n} \\ a_{21} b_{21} & a_{22} b_{22} & \cdots & a_{2 n} b_{2 n} \\ \vdots & \vdots & & \vdots \\ a_{m 1} b_{m 1} & a_{m 2} b_{m 2} & \cdots & a_{m n} b_{m n} \end{array}\right]$

克罗内克积（Kronecker Product ）

符号： $\otimes$
LeTex: \otimes
定义：克罗内克积是两个任意大小的矩阵间的运算，它是张量积的特殊形式。给定 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ ，则 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 的克罗内克积是一个在空间 $\mathbb{R}^{m p \times n q}$ 的分块矩阵：
$\boldsymbol{A} \otimes \boldsymbol{B}=\left[\begin{array}{ccc} a_{11} \boldsymbol{B} & \cdots & a_{1 n} \boldsymbol{B} \\ \vdots & \ddots & \vdots \\ a_{m 1} \boldsymbol{B} & \cdots & a_{m n} \boldsymbol{B} \end{array}\right]$

向量的范式

1. 向量范式的定义

定义：令 $V$ 是定义在场 $\mathbf{F}$ ( $\mathbf{F} = \mathbf{R}$ 或者 $\mathbf{C}$ ，即实数域或者是复数域)上的向量空间。如果对于任意的 $\in V$ 和 $c\in \mathbf{F}$ 都满足下面几个条件，则称函数 $\|\cdot\|:V\to \mathbf{R}$ 是一个范式 (有时被称为向量范式vector norm)。
$\begin{aligned} &(1) \ \ \ ∥x∥≥0, \quad &\mathrm{Nonnegativity}（非负）\\ &(1a) \ ∥x∥=0, \quad &\mathrm{if \ and \ only \ if \ x=0 \ Positivity}（永正）\\ &(2)\ \ \ ∥cx∥= | c | \|x\|, &\mathrm{Homogeneity}（同质）\\ &(3)\ \ \ ∥x+y∥≤\|x\|+\|y\|, &\mathrm{Triangle \ Inequality}（\mathbf{三角不等}）\end{aligned}$ (2) Positivity和 (3) Homogeneity保证了对于任意非零向量 $x$ ，可以正则化到单位向量 $u=\frac{x}{\|x\|}$ 。

只满足(1),(2),(3)而不满足(1a)的范式称为半范式(seminorm)，(1a)保证了只有零向量的范式才是0，非零向量的范式都大于0，而一个非零向量的半范式可以是0。
引理 1.2. $\|\cdot\|$ 是定义在实数域或者复数域向量空间 $V$ 上的半范式, 则对于任意 $y\in V$ ，有 $\le |x − y|$

Proof. 即证明 $\pm (\|x\| − \|y\|) \le \|x − y\|$
$\begin{aligned} (1)& \ \|x\| =\|x-y+y\| \le \|x-y\|+\|y\| \\ &\Rightarrow \|x-y\| \ge \|x\| - \|y\| \\ (2) & \ \|y\| =\|y-x+x\| \le \|y-x\|+\|x\| = \|x-y\|+\|x\|\\ &\Rightarrow \|x-y\| \ge \|y\| - \|x\| \\ \end{aligned}$

2. $L_1$ 范式、L2范式、Infinity范式

1). $L_1$ -morm

$\mathbf{C}^n$ 上的和范式(sum norm)，也叫 $L_1$ -范式( $L_1$ -norm)，定义如下:
$\|x\|_1=|x_1|+\cdots+|x_n|$ 其通常也被称为曼哈顿范式(Manhattan norm)。
例如：以二维向量 $\mathbf{v}=(v_1, v_2)$ 举例，范式的值恰好为1的图像如下，其中横轴代表 $v_1$ ，纵轴代表 $v_2$ :
$L_1$ 范式，即 $v\|_1=|v_1|+|v_2|=1$

2). $L_2$ -morm

一个向量 $x=[x_1,...,x_n]^T\in \mathbf{C}^n$ 的欧几里得范式(Euclidean norm)，也叫 $L_2$ 范式( $L_2$ -norm)，定义如下：
$\|x\|_2=(|x_1|^2+\cdots+|x_n|^2)^{1/2}$ 经常使用 $x-y\|_2$ 来衡量两个点 $x,y\in \mathbf{C}^n$ 的欧几里得距离(Euclidean distance)。

例如： $L_2$ 范式，即 $\|v\|_2=\sqrt{|v_1|^2+|v_2|^2}=1$

3). $L_\infty$ -morm

$C^n$ 上的max norm( $l_\infty$ -norm)为：
$\|x\|_\infty= \max \{|x_1|,\cdots,|x_n| \}$ 一般的， $\mathbf{C}^n$ 上的 $l_p$ -norm定义为：
$\|x\|_p=(|x_1|^p+\cdots+|x_n|^p)^{1/p},\quad p\ge 1$
例如：Infinity范式，即 $\|v\|_\infty= \max \{|v_1|,|v_2| \}=1$

矩阵范式

Frobenius 范数：
$\Vert \mathbf{A} \Vert_F=\sqrt{\mathrm{tr}( \mathbf{A}^{\mathrm{T}} \mathbf{A} )}=(\sum_{i=1}^{m}\sum_{j=1}^{m}|a_{ij}|^2)^{1/2},$ 该定义可以看作向量的 Euclidean 范数对按照矩阵各行排列的“长向量”的推广。

谱范数: $\Vert \mathbf{A} \Vert_F=\sqrt{ \lambda_{\max} },$ $\lambda_{\max}$ 是矩阵 $(\mathbf{A^{\mathrm{T}}A})$ 的最大特征值. 注意：如果 $\mathbf{A}$ 是对称方阵， $\|\mathbf{A}\|=\max (|\lambda_i(\mathbf{A})|)$ ，其中 $\lambda_i(\mathbf{A})$ 为 $\mathbf{A}$ 所有的特征值。

黑塞矩阵（Hessian Matrix）

定义

黑塞矩阵是一个多元函数的二阶偏导数构成的方阵**，描述了函数的局部曲率。

作用

黑塞矩阵常用于牛顿法解决优化问题，利用黑塞矩阵可判定多元函数的极值问题，边缘检测、消除边缘响应等方面的应用，抽取图像特征。大多数目标函数往往很复杂，为了使问题简化，常将目标函数在某点邻域展开成泰勒多项式来逼近原函数，此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵。

函数的黑塞矩阵

一元函数的泰勒展开式

若一元函数 $f (x)$ 在 $x^{(0)}$ 点的某个邻域内具有 $(n + 1)$ 阶导数，则在 $x^{(0)}$ 点处的泰勒展开式为：
$\begin{aligned} f(x) &=f(x^{(0)})+\frac{1}{2}f^{'}(x^{(0)})\Delta x+f^{''}(x^{(0)})(\Delta x)^2 + ...， \\ &= \frac{f(x)}{0!} + \frac{f^{'}(x)}{1!}(x - x^{(0)}) + \frac{f^{''}(x)}{2!}(x - x^{(0)})^2 + ...+\frac{f^{(n)}(x)}{n!}(x - x^{(0)})^n +R_n(x) \end{aligned}$ 其中 $\Delta x = x - x^{(0)},$ $\Delta x^2 = \left(x - x^{(0)} \right)^2, R_n(x)=\frac{f^{(n+1)}(\theta)}{(n+1)!}(x - x^{(0)})^{(n+1)}$ , $~\theta$ 为 $x$ 与 $x^{(0)}$ 之间的某个值.

二元函数的黑塞矩阵

二元函数 $f(x_1,x_2)$ 在 $X_0(x_1^{(0)},x_2^{(0)})$ 点处的泰勒展开式为：
$\begin{aligned} f(X) &= f(X^{(0)})+ \left[ \frac{\partial f (X^{(0)})}{\partial x_1} \Delta x_1 + \frac{\partial f (X^{(0)})}{\partial x_2} \Delta x_2 \right]+ \\ &~~~\frac{1}{2} \left[ \frac{\partial^2 f^{''}(X^{(0)})}{\partial^2 x_1 } (\Delta x_1)^2 + \frac{\partial^2 f^{''}(X^{(0)})}{\partial^2 x_2 } (\Delta x_2)^2 + \frac{\partial^2 f^{''}(X^{(0)})}{\partial x_1 \partial x_2} (\Delta x_1 \Delta x_2) \right] + ...， \end{aligned}$ 其中 $\Delta x_1 = x1-x_1^{(0)},$ $\Delta x_2 = x2-x_2^{(0)}.$

将上述展开式写为矩阵形式：
$\begin{aligned} f(X) &= f(X^{(0)})+ \left. \left( \frac{\partial f}{\partial x_1} \Delta x_1 + \frac{\partial f}{\partial x_2} \Delta x_2 \right) \right|_{X^{(0)}} \left( \begin{aligned} \Delta x_1 \\ \Delta x_2 \end{aligned} \right)+ \left.\frac{1}{2} \left( \Delta x_{1}, \Delta x_{2}\right) \left(\begin{array}{cc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} \end{array} \right) \right|_{X^{(0)}} \left(\begin{array}{c} \Delta x_{1} \\ \Delta x_{2} \end{array}\right) + ...，\\ &=f(X^{(0)}) + \nabla f(X^{(0)})^T \Delta X + \frac{1}{2} \Delta X^T G(X^{(0)}) \Delta X + ..., \end{aligned}$ 其中 $G(X^{(0)}) = \left.\left(\begin{array}{cc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} \end{array} \right) \right|_{X^{(0)}},$ $\Delta X = \left( \begin{aligned} \Delta x_1 \\ \Delta x_2 \end{aligned} \right)$ ， $G(X^{(0)})$ 是 $f(x_1,x_2)$ 在 $X^{(0)}$ 点处的黑塞矩阵（Hessian Matrix）,它是由函数 $f (X)$ 在 $X^{(0)}$ 点处的二阶偏导数所组成的方阵.

多元函数的黑塞矩阵

将二元函数的泰勒展开式推广到多元函数，则 $f(x_1,x_2,...,x_n)$ 在 $X^{(0)}$ 点处的泰勒展开式的矩阵形式为：
$f(X)=f(X^{(0)}) + \nabla f(X^{(0)})^T \Delta X + \frac{1}{2} \Delta X^T G(X^{(0)}) \Delta X + ...,$ 其中:
(1). $\nabla f(X^{(0)})= \left.\left[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2},..., \frac{\partial f}{\partial x_n}, \right] \right|_{X^{(0)}} ^T$ ，它是 $f (X)$ 在 $X^{(0)}$ 点处的梯度.

(2). $G\left(X^{(0)}\right)=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]_{X^{(0)}}$ , 它是 $f (X)$ 在 $X^{(0)}$ 点处的Hessian Matrix，是由目标函数f在点 $X$ 处的二阶偏导数组成的 $\times n)$ 阶对称矩阵.

利用黑塞矩阵判定多元函数的极值

设n多元实函数 $f(x_1,x_2,...,x_n)$ 在点 $M_0(a_1,a_2,...,a_n)$ 的邻域内有二阶连续偏导，若有： $\left.\frac{\partial f}{\partial x_j}\right|_{(a_1,a_2,...,a_n)}, j=1,2,...,n$ 其中Hessian Matrix为 $\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]$
则有以下结论：
（1）当 $A$ 正定矩阵时， $f$ 在 $M_0(a_1,a_2,...,a_n)$ 处是极小值；
（2）当 $A$ 负定矩阵时， $f$ 在 $M_0(a_1,a_2,...,a_n)$ 处是极大值；
（3）当 $A$ 不定矩阵时， $M_0(a_1,a_2,...,a_n)$ 不是极值点。
（4）当 $A$ 为半正定矩阵或半负定矩阵时， $M_0(a_1,a_2,...,a_n)$ 是“可疑”极值点，尚需要利用其他方法来判定。

例子

求三元函数 $f(x,y,z)=x^2+y^2+z^2+2x+4y-6z$ 的极值。

解： $\because \frac{\partial f}{\partial x}=2x+2=0,\frac{\partial f}{\partial x}=2y+4y=0, \frac{\partial f}{\partial x}=2z-6=0$

$\therefore$ 函数 $f$ 的驻点是 $(- 1, - 2, 3)$

又 $\because$ $A=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x^{2}} & \frac{\partial^{2} f}{\partial x \partial y} & \frac{\partial^{2} f}{\partial x_{1} \partial z } \\ \frac{\partial^{2} f}{\partial y \partial x } & \frac{\partial^{2} f}{\partial y^{2}} & \frac{\partial^{2} f}{\partial y \partial z } \\ \frac{\partial^{2} f}{\partial z \partial x } & \frac{\partial^{2} f}{\partial z \partial y } & \frac{\partial^{2} f}{\partial z^{2}} \end{array}\right] = \left[\begin{array}{cccc} 2 & 0 & 0 \\ 0 & 2 &0 \\ 0 &0& 2 \end{array}\right]$