机器学习之重温线性代数-CSDN博客

本文链接：https://blog.csdn.net/qq_44697378/article/details/109011695

一、矩阵的基本概念和意义
二、矩阵运算在深度学习中的应用(初级)
三、矩阵初等变换的引入
四、矩阵秩在机器学习线性回归算法中的应用(中级)
五、相似矩阵的定义以及矩阵的对角化
六、矩阵的正定型在机器学习线性回归算法中的运用(高级)
七、SVD分解及其应用

一、矩阵的基本概念和意义

定义1 由 $m\times n$ 个数 $a_{ij}$ ( $i = 1, 2, . . . m$ ; $j = 1, 2 . . . n$ )排成 $m$ 行 $n$ 列的数表

$\begin{matrix} a_{11} &a_{12} &... & a_{1n}\\ a_{21} &a_{22} &... & a_{2n}\\ \vdots & \vdots &\ddots &\vdots \\ a_{m1}&a_{m2} &\vdots &a_{mn} \end{matrix}$
称为 $m$ 行 $n$ l列矩阵，简称 $m\times n$ 矩阵，为表示它是一个整数，总是加一个括弧，并用大写黑体字母表示它，记作

$\begin{bmatrix} a_{11} &a_{12} &... & a_{1n}\\ a_{21} &a_{22} &... & a_{2n}\\ \vdots & \vdots &\ddots &\vdots \\ a_{m1}&a_{m2} &\vdots &a_{mn} \end{bmatrix}$

这 $m\times n$ 个数称为矩阵 $A$ 的元素，简称元。数 $a_{ij}$ 位于矩阵的第 $i$ 行第 $j$ 列，称为矩阵 $A$ 的 $(i, j)$ 元，以数 $a_{ij}$ 为 $(i, j)$ 元的矩阵可简记为 $a_{ij})$ 或 $(a_{ij})_{m\times n}$ , $m\times n$ 矩阵 $A$ 也记作 $A_{m\times n}$ 。

什么时候是方阵呢？就是当 $m = n$ 的时候。

什么是行向量呢？就是当 $m = 1$

什么是列向量呢？就是当 $n = 1$

什么是两个矩阵相等呢？就是两个矩阵对应的元素相等

什么是零矩阵？就是矩阵所有的元素都为0

探讨矩阵的意义

1、一种线性变换

$\left\{\begin{matrix} y_{1}=a_{11}\times x_{1} + a_{12}\times x_{2} + \cdots + a_{1n}\times x_{n}\\ y_{2} = a_{21}\times x_{1}+a_{22}\times x_{2} + \cdots + a_{2n}\times x_{n}\\ \cdots \\ y_{m} = a_{m1}\times x_{1}+a_{m2}\times x_{2} + \cdots + a_{mn}\times x_{n} \end{matrix}\right.$
表示一个从变量 $x_{1},x_{2}, \cdots x_{n}$ 到变量 $y_{1},y_{2}, \cdots y_{m}$ 的线性变换，其中系数 $a_{ij}$ 构成矩阵 $(a_{ij})_{m \times n}$

恒等变换就是矩阵 $A$ 为单位矩阵

对角矩阵即除了对角之外，其他元素都为零

2、加法与数乘

定义2，设有两个 $m\times n$ 矩阵 $A = (a_{ij})$ 和矩阵 $B = (b_{ij})$ ，那么矩阵 $A$ 与矩阵 $B$ 的和记作 $A + B$ ,规定为

$\begin{bmatrix} a_{11}+b_{11} &a_{12}+b_{12} &\cdots & a_{1n}+b_{1n}\\ a_{21}+b_{21}&a_{22}+b_{22} &\cdots &a_{2n}+b_{2n} \\ \vdots& \vdots & \ddots & \vdots\\ a_{m1}+b_{m1}&a_{m2}+b_{m2} &\cdots &a_{mn}+b_{mn} \end{bmatrix}$

设 $A, B, C$ 都是 $\times n$ 的矩阵，满足加法运算律

$(A + B) = (B + A)$

$(A + B) + C = A + (B + C)$

注意:只有当两个矩阵是同型矩阵时，这两个矩阵才可以进行加法运算

定义3，数 $\lambda$ 与矩阵 $A$ 的乘积记作 $\lambda A$ 或者 $\lambda$ ，规定为
$\lambda A =A \lambda = \begin{bmatrix} \lambda a_{11}&\lambda a_{12} &\cdots &\lambda a_{1n} \\ \lambda a_{21}&\lambda a_{22} &\cdots & \lambda a_{2n}\\ \vdots& \vdots & \ddots &\vdots \\ \lambda a_{m1}&\lambda a_{m2} &\cdots &\lambda a_{mn} \end{bmatrix}$

设 $\lambda ,\mu \in R$ , $A$ 为 $\times n$ 矩阵，
满足以下规律

(i) $(\lambda \mu) A = \lambda(\mu)A$

(ii) $(\lambda + \mu)A = \lambda A + \mu A$

(iii) $\lambda (A+B) = \lambda A + \lambda B$

3.矩阵的乘法

定义4 设 $\left( a_{ij}\right)$ 是一个 $\times s$ 矩阵， $\left(b_{ij}\right)$ 是一个 $s\times n$ 的矩阵，那么规定矩阵 $A$ 与矩阵 $B$ 的乘积是一个 $\times n$ 矩阵 $\left(c_{ij}\right)$ ,
其中

$c_{ij} = a_{i1}b_{1j} + a_{i2}b_{2j}+ \cdots+a_{is}b_{sj} = \sum_{k=1}^{s}a_{ik}b_{sk}$
$1,2,\cdots m; j = 1,2 \cdots n)$ ,

并把这次成绩记作 $\times B$

设有矩阵 $A, B, C$ ，则满足规律

(i) $(A B) C = A (B C)$

(ii) $\lambda (AB) = (\lambda A)B = A(\lambda B)$

(iii) $A (B + C) = A B + A C, (B + C) A = B C + C A$

二、矩阵运算在深度学习中的应用(初级)

1.数字图像识别

输入一张为数字(0-9)的图片，大小为 $10 \times 10$ ，下面图片也可以体现出矩阵是一种特征空间的变换

-w15

单样本：
$(x_{1},x_{2},\cdots,x_{100})w_{1} = (y_{1},y_{2},\cdots,y_{512})$
$(z_{1},z_{2},\cdots,z_{512})w_{2} = (O_{1},O_{2},\cdots,O_{10})$

关于 $r e l u$ 函数如下：

$\left\{\begin{matrix} x & x>0\\ 0& x\leqslant 0 \end{matrix}\right.$

$n$ 个样本：
$\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1,100}\\ \vdots&\vdots&&\vdots\\ \\ x_{n1}&x_{n2}&\cdots&x_{n,100} \end{bmatrix}w_{1} = \begin{bmatrix} y_{11}&y_{12}&\cdots&y_{1,512}\\ \vdots&\vdots&&\vdots\\ \\ y_{n1}&y_{n2}&\cdots&y_{n,512} \end{bmatrix}$

$\begin{bmatrix} z_{11}&z_{12}&\cdots&x_{1,512}\\ \vdots&\vdots&&\vdots\\ \\ z_{n1}&z_{n2}&\cdots&z_{n,512} \end{bmatrix}w_{2} = \begin{bmatrix} O_{11}&O_{12}&\cdots&O_{1,10}\\ \vdots&\vdots&&\vdots\\ \\ O_{n1}&O_{n2}&\cdots&O_{n,10} \end{bmatrix}$

2.矩阵的迹，矩阵的转置，对称矩阵(协方差矩阵)

1.矩阵的迹

定义： 在线性代数中，一个 $n\times n$ 的矩阵 $A$ 的主对角线(从左上方至右下方的对角线)上各个元素的总和被称为矩阵 $A$ 的迹(或迹数)，一般记作 $t r (A)$
$\sum_{i=1}^{n}a_{ii}$

结论 $\$ $t r (A B) = T R (A B)$ 对于满足矩阵乘法条件(型号匹配的)任意 $A_{m \times n}$ 、 $B_{n \times m}$ 均成立。

证明

设 $(AB)_{m \times m}$ , $(BA)_{n \times n}$

所以， $tr(AB)=\sum_{i=1}^{m}c_{ii}=\sum_{i=1}^{m}\sum_{s=1}^{n}a_{is}b_{si}$
同时， $tr(BA)=\sum_{i=1}^{n}d_{ii} = \sum_{s=1}^{n}\sum_{i=1}^{m}b_{si}a_{is}$
又因为求和可交换，则最后可得 $t r (A B) = t r (B A)$

2.矩阵的转置

定义: 把矩阵 $A$ 的行换成同序数的列得到的一个新矩阵，叫做矩阵的转置，记作 $A^{T}.$

性质：(i) $A^{T})^{T} = A$
(ii) $A+B)^{T}=A^{T}+B^{T}$
(iii) $(\lambda A)^{T}=\lambda A^{T}$
$AB)^{T}=B^{T}A^{T}$

3.对称矩阵

定义： 设 $A$ 为n阶方阵，如果满足 $A^{T}=A$ ,即 $a_{ij}=a_{ji},(i,j=1,2,\cdots,n)$ 那么称 $A$ 为对称矩阵.

4.协方差矩阵

$N$ 个样本，每个样本的特征的维度为 $n$ ,容易证明协方差矩阵是对称矩阵

设 $X=\begin{pmatrix} x_{1}^{T}\\ \vdots\\ x_{N}^{T} \end{pmatrix}_{N\times n}$ , $X^{T}=\begin{pmatrix} x_{1},x_{2},\cdots,x_{N} \end{pmatrix}_{n\times N}$

$X^{T}X$ 为样本的协方差矩阵。

3.行列式的引入

定义: 关于行列式的引入可从解方程的角度去看，例如二阶行列式，采用消元法解二元线性方程组,具体此处省略.
$\begin{vmatrix} a&b\\ c&d \end{vmatrix} =ad-bc$ 为二阶行列式

1.特殊矩阵的行列式

$\begin{vmatrix} \lambda_{11}\\ &\lambda_{22}\\ & &\ddots\\ & & &\lambda_{n} \end{vmatrix}=\lambda_{1}\lambda_{2} \cdots \lambda_{n}$
$\qquad \quad\begin{vmatrix} & & & \lambda_{1}\\ & &\lambda_{2}\\ & \cdots \\ \lambda_{n} \end{vmatrix}=(-1)^{\frac{n(n-1)}{2}}\lambda_{1}\lambda_{2}\cdots\lambda_{n}$

$D=\begin{vmatrix} a_{11}& \cdots& \cdots&0 \\ a_{21}&a_{22}& & \\ \vdots&\vdots &\ddots &\\ a_{n1}&a_{n2}&\cdots&a_{nn} \end{vmatrix}=a_{11}a_{22}\cdots a_{nn}$

2.行列式的性质

(1) 行列式与它的转置行列式相等

(2)互换行列式的两行(列)，行列式变号。

推论: 如果行列式有两行(行列)完全相同，则次行列式为零。

(3)行列式的某一行(列)中所有元素都乘以同一数 $k$ ，等于用 $k$ 乘以此行列式.

(4) 行列式中如果两行(列)的元素成比例，则此行列式等于零。

(5) 把行列式的某一行（列）的各元素乘以同一数然后加到另一行(列)的元素上去，h行列式不变。

(6) $\begin{vmatrix} a_{11}&\cdots&a_{1k}& & \\ \vdots& &\vdots& & \\ a_{k1}&\cdots&a_{kk} & \\ c_{11}&\cdots&c_{1k}& b_{11}&\cdots&a_{1n}\\ \vdots& & \vdots& \vdots& & \vdots& \\ c_{n1}& \cdots&c_{nk}& b_{n1}&\cdots&b_{nn} \end{vmatrix}$

$D_{1}=det(a_{ij})=\begin{vmatrix} a_{11}& \cdots&a_{1k}\\ \vdots& &\vdots \\ a_{k1}& \cdots&a_{kk} \end{vmatrix} \qquad D_{2}=\begin{vmatrix} b_{11}& \cdots&b_{1k}\\ \vdots& &\vdots \\ b_{n1}& \cdots&b_{nn} \end{vmatrix}$
$\qquad$ 那么 $D=D_{1}D_{2}$

(7) $\begin{vmatrix} AB \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} B \end{vmatrix}$

3.行列式按行(列)展开，代数余子式

降阶处理，用低阶的行列式来算高阶的行列式

在 $n$ 阶行列式，把 $(i, j)$ 元 $a_{ij}$ 的第 $i$ 行和第 $j$ 列划去以后，留下来的 $n - 1$ 阶行列式叫做 $(i, j)$ 元 $a_{ij}$ 余子式，记作 $M_{ij}$ ，记
$A_{ij}=(-1)^{i+j}M_{ij}$

$A_{ij}$ 叫做 $a_{ij}$ 的代数余子式

引理： 一个 $n$ 阶行列式，如果其中第 $i$ 行所有元素除 $a_{ij}$ 外都等于0，那么行列式等于 $a_{ij}$ 与它的代数余子式的乘积，即 $D=a_{ij}A_{ij}$

定理: 行列式等于它的任一行(列)的各元素与其对应的代数余子式乘积之和。

推论: 行列式某一行(列)的元素与另一行(列)对应元素得代数余子式乘积之和等于0。

4.行列式的应用：克莱姆法则( $Cramer's\quad rule$ )

$\left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=b_{1}\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=b_{2}\\ \cdots \cdots \cdots\\ a_{n1}x_{1}+a_{n2}x_{2}+\cdots+a_{nn}x_{n}=b_{n} \end{matrix}\right.$
如果方程的系数行列式不等于0，即$\$
$D=\begin{vmatrix} a_{11}&\cdots&a_{1n} \\ \vdots& &\vdots\\ a_{n1}& \cdots&a_{nn} \end{vmatrix}\neq 0$

那么方程有唯一解
$x_{1}=\frac{D_{1}}{D}\quad x_{2}=\frac{D_{2}}{D},\cdots x_{n}=\frac{D_{n}}{D}$

其中 $D_{j}(j=1,2,\cdots n)$ 是把系数行列式中 $D$ 中第 $j$ 列的元素用方程组右端的常数项代替后得到的 $n$ 阶行列式，即

$\\ D_{j}=\begin{vmatrix} a_{11}&\cdots&a_{i,j-1}&b_{1}&a_{i,j+1}&\cdots&a_{1n} \\ \vdots& & \vdots& \vdots& \vdots& &\vdots \\ a_{n1}& \cdots& a_{n,j-1}&b_{n}& a_{n,j+1}&\cdots &a_{nn} \end{vmatrix}$

如果上式方程无解或者有两个不同的解，那 $D$ 一定为0.
若上式方程的 $b_{j}$ 都为零，那么就由非齐次方程组转化为齐次方程组,即
$\left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=0\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=0\\ \cdots \cdots \cdots\\ a_{n1}x_{1}+a_{n2}x_{2}+\cdots+a_{nn}x_{n}=0 \end{matrix}\right.$

如果该方程的系数行列式 $D$ 不为0，则方程只有0解，无非零解。如果该方程有非零解，则 $D$ 一定为0.

4.矩阵逆的引入

定义: 对于 $n$ 阶矩阵 $A$ ，如果有一个 $n$ 阶矩阵 $B$ ，使得 $A B = B A = E$ ，则说明矩阵 $A$ 是可逆的，并把矩阵 $B$ 称为矩阵 $A$ 的逆矩阵， $A$ 的逆矩阵记作 $A^{-1}$ 即 $B=A^{-1}$

定理1 若 $\neq 0$ 矩阵 $A$ 可逆，则 $\begin{vmatrix} A \end{vmatrix}\neq 0$

证明： $\begin{vmatrix} A^{-1} \end{vmatrix}A可逆，则有A^{-1},使得AA^{-1}=E$ ,所以有 $\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} A^{-1} \end{vmatrix}=1$ A
那么， $\begin{vmatrix} A \end{vmatrix}\neq 0$

定理2 若 $\begin{vmatrix} A \end{vmatrix}\neq 0$ ,则矩阵 $A$ 可逆，且 $A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*}$ ,其中 $A^{*}$ 为矩阵 $A$ 的伴随矩阵.

$A^{*}=\begin{pmatrix} A_{11}& A_{21} &\cdots &A_{n1} \\ A_{12}& A_{22} &\cdots &A_{n2} \\ \vdots& \vdots & &\vdots \\ A_{1n}&A_{2n} &\cdots &A_{nn} \end{pmatrix}$

4.1 矩阵的逆的常用性质以及特殊矩阵的逆

性质

(i) 若 $A$ 可逆，则 $A^{-1}$ 也可逆，且 $A^{-1})^{-1}=A$

(ii)若 $A$ 可逆，数 $\lambda \neq 0$ ,则 $\lambda A$ 可逆， $(\lambda A)^{-1}=\frac{1}{\lambda}A^{-1}$

(iii) 若 $A, B$ 为同阶方阵且均可逆，则 $\begin{vmatrix} AB \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\begin{vmatrix} B \end{vmatrix}\neq 0$ ,则 $A B$ 可逆；且 $AB)^{-1}=B^{-1}A^{-1}$

(iiii) 若 $A$ 是可逆的，则 $A^{T}$ 也可逆，且 $A^{T})^{-1}=(A^{-1})^{-T}$

说明： $\begin{vmatrix} A^{T} \end{vmatrix}=\begin{vmatrix} A \end{vmatrix}\neq 0$ ,则 $A^{T}$ 可逆，因为 $A^{T}(A^{-1})^{T}=(A^{-1}A)^{T}=E$

4.2 特殊矩阵的逆

求二阶矩阵 $A=\begin{pmatrix} a&b&\\ c&d& \end{pmatrix}$ 的逆矩阵。

解： $\begin{vmatrix} A \end{vmatrix}=ad-bc,\qquad A^{*}= \begin{pmatrix} d&-b&\\ -c&a& \end{pmatrix}$
A
利用逆矩阵公式 $A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*}$ ,当 $det(A)\neq0$ 时，有
A
$A^{-1}=\frac{1}{\begin{vmatrix} A \end{vmatrix}}A^{*}=\frac{1}{ad-bc}\begin{pmatrix} d&-b&\\ -c&a& \end{pmatrix}$

单位矩阵的逆矩阵为单位矩阵
对角矩阵的逆矩阵

$A=\begin{pmatrix} \lambda_{1} & &\\ &\ddots&\\ & &\lambda_{n} \end{pmatrix},\qquad \therefore A^{-1}=\begin{pmatrix} \lambda_{1}^{-1} & &\\ &\ddots&\\ & &\lambda_{n}^{-1} \end{pmatrix}$

4.3 矩阵逆在机器学习线性回归算法中的运用(初级)

4.3.1 多元线性回归问题

$x_{1},x_{2},\cdots,x_{N},x_{i}\in \mathbb{R}^{n} \\ y_{1},x_{2},\cdots,y_{N},y_{i}\in \mathbb{R}^{1}$
其中 $x_{i}$ 表示一个样本，其是一个 $n$ 维向量， $y_{i}$ 是一个输出标量

在回归问题中，我们有

$y_{1}=x_{11}a_{1}+x_{12}a_{2}+\cdots+x_{1n}a_{n} \\ y_{1}=x_{21}a_{1}+x_{22}a_{2}+\cdots+x_{2n}a_{n} \\ \vdots\\ y_{N}=x_{N1}a_{1}+x_{N2}a_{2}+\cdots+x_{Nn}a_{n}$

写成矩阵的形式

$\begin{pmatrix} x_{11}&x_{12} &\cdots &x_{1n}\\ x_{21}& x_{22}&\cdots &x_{2n}\\ \vdots& \vdots& \ddots&\vdots\\ x_{N1}&x_{N2} &\cdots &x_{Nn} \end{pmatrix}\begin{pmatrix} a_{1}\\a_{2}\\\vdots\\a_{n} \end{pmatrix}=\begin{pmatrix} y_{1}\\ y_{1}\\\vdots \\y_{N} \end{pmatrix}$

$X_{N\times n}a_{n\times1}=Y_{N\times1}$
当 $N = n$ 且 $X_{N\times n}$ 可逆时， $a=X^{-1}Y$
一般情况， $N\neq n$ .

5. 分块矩阵

分块矩阵的运算规则与普通矩阵的运算规则相似，分别说明如下：

(i) 设矩阵 $A$ 与 $B$ 的行数、列数相同，采用相同的分块法，有

$A=\begin{pmatrix} A_{11} &\cdots&A_{ir}\\ \vdots& &\vdots\\ A_{n1}& \cdots&A_{nr}\\ \end{pmatrix},\qquad B=\begin{pmatrix} B_{11} &\cdots&B_{ir}\\ \vdots& &\vdots\\ B_{n1}& \cdots&B_{nr}\\ \end{pmatrix}$

其中 $A_{ij}$ 与 $B_{ij}$ 行数，列数相同，那么

$A+B=\begin{pmatrix} A_{11}+B_{11} &\cdots&A_{ir}+B_{ir}\\ \vdots& &\vdots\\ A_{n1}+B_{n1}& \cdots&A_{nr}+B_{nr}\\ \end{pmatrix}$

(ii) 设 $A=\begin{pmatrix} A_{11}&\cdots &A_{1r}\\ \vdots& &\vdots \\ A_{s1}&\cdots &A_{sr} \end{pmatrix}$ , $\qquad \lambda$ 为一个实数，那么 $\lambda A=\begin{pmatrix} \lambda A_{11}&\cdots &\lambda A_{1r}\\ \vdots& &\vdots \\ \lambda A_{s1}&\cdots &\lambda A_{sr} \end{pmatrix}$

(iii) 设 $A$ 为 $m\times l$ , $B$ 为 $l\times n$ ,分块成
$A=\begin{pmatrix} A_{11}&\cdots &A_{1t}\\ \vdots& & \vdots\\ A_{s1}&\cdots &A_{st}\\ \end{pmatrix},\qquad B=\begin{pmatrix} B_{11}& \cdots&B_{1r}\\ \vdots& &\vdots\\ B_{t1}&\cdots &B_{tr} \end{pmatrix}$

其中 $A_{i1},A_{i2},\cdots,A_{it}$ 的列数分别等于 $B_{1j},B_{2j},\cdots,B_{tj}$ 的行数，那么有

$AB\begin{pmatrix} C_{11}&\cdots &C_{1r}\\ \vdots& &\vdots\\ C_{s1}&\cdots &C_{sr} \end{pmatrix}$

其中， $C_{ij}=\sum_{k=1}^{t}A_{ik}B_{kj},\qquad (i=1,\cdots,s;j=1,\cdots,r)$

(iv) 设 $A=\begin{pmatrix} A_{11}&\cdots &A_{1r}\\ \vdots& &\vdots\\ A_{s1}&\cdots &A_{sr} \end{pmatrix}$ ,则 $A^{T}=\begin{pmatrix} A_{11}^{T}&\cdots &A_{s1}^{T}\\ \vdots& &\vdots\\ A_{1r}^{T}&\cdots &A_{sr}^{T} \end{pmatrix}$

(v) 设 $A$ 为 $n$ 阶矩阵，若 $A$ 的分块矩阵只有对角线上有非零块，其余子块都为零矩阵，且对角线上的子块都是方阵，即

$A=\begin{pmatrix} A_{1}& & &O\\ & A_{2}& &\\ & & \ddots&\\ & & &A_{s} \end{pmatrix}$

其中 $A_{i}(i=1,2\cdots s)$ 都是方阵，那么称 $A$ 为分块对角阵，
分块对角阵的行列式具有下述性质
$\begin{vmatrix} A \end{vmatrix}=\begin{vmatrix} A_{1} \end{vmatrix}\begin{vmatrix} A_{2} \end{vmatrix}\cdots\begin{vmatrix} A_{s} \end{vmatrix}$

由此性质可知，若 $\begin{vmatrix} A_{i} \end{vmatrix}\neq0(i=1,2,\cdots s)$ ,则 $\begin{vmatrix} A \end{vmatrix}\neq0$ ,并有

$A^{-1}=\begin{pmatrix} A_{1}^{-1}& & &O\\ & A_{2}^{-1}& &\\ & & \ddots&\\ & & &A_{s}^{-1} \end{pmatrix}$

5.1 协方差矩阵的计算

$x_{1},x_{2},\cdots x_{N} \in \mathbb{R}^{n}$

$X=\begin{pmatrix} x_{1}^{T}\\ \vdots\\ x_{N}^{T} \end{pmatrix}_{N \times n}，\qquad X^{T}=\begin{pmatrix} x_{1}，x_{2},\cdots,x_{N} \end{pmatrix}_{n\times N},\qquad X^{T}X_{n\times n}$ ,为样本的协方差矩阵

$X^{T}X=\sum_{i=1}^{N}x_{i}x_{i}^{T}$

三、矩阵初等变换的引入

1 三种矩阵的初等变化

定义： 下面的三种变换称为矩阵的初等行变换：

(i) 对调两行(对调 $i, j$ 两行，记作 $r_{i}\leftrightarrow r_{j})$

(ii)以数 $k\neq0$ 乘某一行的所有元素(第 $i$ 行乘以 $k$ ,记作 $r_{i}\times k$ );

(iii)把某一行所有元素的 $k$ 倍加到另外一行对应的元素上去(第 $j$ 行的 $k$ 倍加到第 $i$ 行上，记作 $r_{i}+k\times r_{j}$ )

把定义中的”行“换成”列”，即得矩阵得初等列变换得定义(记号“ $r$ ”换成“ $c$ ”)

矩阵得初等行变换与初等列变换，统称初等变换

如果矩阵 $A$ 经有限次初等行(列)变换变成矩阵 $B$ ，就称矩阵 $A$ 与 $B$ 行(列)等价，记作 $A\sim B$ ;

如果矩阵 $A$ 经有限次初等变换变成矩阵 $B$ ,就称矩阵 $A$ 与 $B$ 等价，记作 $A\sim B$ ;

矩阵之间的等价关系具有以下性质：

(i)反身性 $A\sim A$ ；

(ii)对称性若 $A\sim B$ ,则 $B\sim A$

(iii)传递性若 $A\sim B$ , $B\sim C$ ,则 $A\sim C$

2.矩阵的标准型

例如
$B=\begin{bmatrix} 2& -1&-1 &1 &2\\ 1& 1& -2&1 &4\\ 4& -6&2 &-2 &4\\ 3& 6& -9&7 &9 \end{bmatrix}$

第一步，进行初等行变换，可得 ${\color{red}阶梯型矩阵}$ , $B_{p}=\begin{bmatrix} 1& 0& -1&0 &4\\ 0& 1& -1&0 &3\\ 0&0 &0 &1 &-3\\ 0&0 &0 &0 &0 \end{bmatrix}$

第二步，进行初等列变换，可得 ${\color{red}矩阵B的标准型F}$

$F=\begin{bmatrix} 1& 0& 0& 0&0\\ 0&1 &0 &0 &0\\ 0&0 &1 &0 &0\\ 0&0 &0 &0 &0 \end{bmatrix}$

其特点： $F$ 的左上角是一个单位矩阵。其余元素全为0.

${\color{red}对于m\times n矩阵A，总可以经过初等变换(行变换和列变换)，把它化为标准型}$

$F=\begin{bmatrix} E_{r}&O &\\ O&O & \end{bmatrix}_{m\times n}$

3.三种初等矩阵

$E(i,j)=\begin{bmatrix} 1& & & & & & & & & &\\ &\ddots& & & & & & & & &\\ &&1&&&&&&&&\\ &&&0&&\cdots&&1&&&\\ &&&&1&&&&&&\\ &&&\vdots&&\ddots&&\vdots&&&\\ &&&&&&1&&&&\\ &&&1&&\cdots&&0&&&\\ &&&&&&&&1&&\\ &&&&&&&&&\ddots&\\ &&&&&&&&&&1\\ \end{bmatrix}$

矩阵 $E (i, j)$ 由单位矩阵互换 $i, j$ 行得到的。

将该矩阵作用在另外一个矩阵 $A$ 上(即左乘以矩阵 $A$ )，得到的结果相当于把 $A$ 矩阵的 $i, j$ 行交换位置

$E(i(k))=\begin{bmatrix} 1&&&&&&\\ &\ddots&&&&&\\ &&1&&&&\\ &&&k&&&\\ &&&&1&&\\ &&&&&\ddots&\\ &&&&&&1 \end{bmatrix}$

矩阵 $E (i (k))$ 由单位矩阵的第 $i$ 行乘以 $k$ 得到。

将该矩阵作用在另外一个矩阵 $A$ 上(即左乘以矩阵 $A$ )，得到的结果相当于把 $A$ 矩阵的 $i$ 行乘以 $k$

$E(ij(k))=\begin{bmatrix} 1&&&&&&\\ &\ddots&&&&&\\ &&1&&&&\\ &&&\ddots&&&\\ &&&&1&&\\ &&&&&\ddots&\\ &&&&&&1 \end{bmatrix}$

矩阵 $E (i j (k))$ 由单位矩阵的第 $i$ 行加上第 $j$ 行与 $k$ 的乘积。

将该矩阵作用在另外一个矩阵 $A$ 上(即左乘以矩阵 $A$ )，得到的结果相当于把 $A$ 矩阵的 $i$ 行加上第 $j$ 行与 $k$ 的乘积.

性质1 设 $A$ 是一个 $m\times n$ 矩阵，对 $A$ 实施一次初等行变换，相当于在 $A$ 的左边乘以相应的 $m$ 阶初等矩阵；对 $A$ 施行一次初等列变换。相当于在 $A$ 的右边乘以相应的 $n$ 阶初等矩阵

性质2 方阵 $A$ 可逆的充分必要条件是存在有限个初等矩阵 $P_{1},P_{2},\cdots,P_{i}$ ,使得 $A=P_{1}P_{2}\cdots P_{i}$

证明： $\because$ 任意矩阵，都可以经过初等变换转为为标准型 $F=\begin{bmatrix} E_{r}&O\\ O&O \end{bmatrix}$ , $E_{r}$ 为单位矩阵

$\therefore$ 存在初等矩阵 $Q_{1},Q_{2},\cdots,Q_{j},Q_{j+1},\cdots Q_{i}$ ,使得 $Q_{1}Q_{2}\cdots Q_{j}AQ_{i}\cdots Q_{j+1}=F$

$\because$ 初等矩阵是可逆的

$\therefore$ $A=Q_{j}^{-1}Q_{j-1}^{-1}\cdots Q_{1}^{-1}FQ_{j+1}^{-1}\cdots Q_{i}^{-1}$

令 $P_{k}=Q_{k}^{-1}，(k=1,2,\cdots i)$

$\because$ , $A=P_{j}P_{j-1}\cdots P_{j}FP_{j+1}P_{j+2}\cdots P_{i}$

$\because$ $\begin{vmatrix} A \end{vmatrix}=\left | P_{1} \right |\left | P_{2} \right |\cdots \left | F \right |\left | P_{j+1} \right |\cdots \left | P_{i} \right |$

$\because$ $A$ 可逆

$\therefore$ $\left | F \right |\neq0$ ,

$\because$ 矩阵 $F$ 是标准型矩阵， $\therefore$ 矩阵 $F$ 为单位矩阵

$\therefore$ $A=P_{1}P_{2}\cdots P_{i}$

推论：方阵 $A$ 可逆的充分必要条件是可通过初等** ${\color{red}{行}}$ **变换变成单位矩阵

证明： $\because$ $A=P_{1}P_{2}\cdots P_{i}$

$\therefore\qquad P_{1}^{-1}P_{2}^{-1}\cdots P_{i}^{-1}A=E$

$\therefore\qquad Q_{1}Q_{2}\cdots Q_{i}A =E$

所以，推论成立。

定理: 设 $A$ 与 $B$ 为 $m\times n$ 矩阵，那么：

(i) $A\sim (r) B$ 的充分必要条件是存在 $m$ 阶可逆矩阵 $P$ ；使得 $P A = B$ ；

(ii) $A\sim (c) B$ 的充分必要条件是存在 $n$ 阶可逆矩阵 $Q$ ；使得 $A Q = B$ ；

(iii) $A\sim B$ 的充分必要条件使存在 $m$ 阶可逆矩阵 $P$ 以及 $n$ 阶可逆矩阵 $Q$ ,，使得 $P A Q = B$

4. 矩阵秩的定义以及性质

定义在 $m\times n$ 矩阵 $A$ 中，任取 $k$ 行与 $k$ 列 $(k\leq m,k\leq n)$ ，位于这些行列交叉处的 $k^{2}$ 个元素，不改变它们在 $A$ 中所处的位置次序而得的 $k$ 阶行列式,称为矩阵 $A$ 的 $k$ 阶子式。

$m\times n矩阵A的k阶子式共有C_{m}^{k}\cdot C_{n}^{k}个$

定义: 设在矩阵 $A$ 中有一个不等于0的 $r$ 阶子式子 $D$ ,且所有 $r + 1$ 阶子式(如果存在的话)全等于0，那么 $D$ 称为矩阵 $A$ 的最高阶非零子式，数 $r$ 称为矩阵 $A$ 的秩，记作 $R (A)$ ，并规定零矩阵的秩等于0.

显然，若 $A$ 为 $m\times n$ 矩阵，则 $0\leq R(A)\leq min\left \{ m,n \right \}$ .由于行列式与其转置行列式相等，因此 $A^{T}$ 的子式与 $A$ 的子式对应相等，从而 $R(A^{T})=R(A)$ 。对于 $n$ 阶矩阵 $A$ ，由于 $A$ 的 $n$ 阶子式只有一个 $\left | A \right |$ ,故当 $\left | A \right |\neq 0$ 时 $R (A) = n$ ，当 $\left | A \right |=0$ 时 $R (A) < n$ .可见可逆矩阵的秩等于矩阵的阶数，不可逆矩阵的秩小于矩阵的阶数，因此， ${\color{red}{可逆矩阵又称满秩矩阵，不可逆矩阵(奇异矩阵)又称为降秩矩阵}}$

注：对于一般矩阵，当行数与列数较高时，按照定义求秩很麻烦，然而对于行阶梯形矩阵，它的秩就等于非零行的行数，一看便知无须计算，因此自然想到用初等变换把矩阵化为行阶梯型矩阵，但是两个等价矩阵的秩是否相等呢？

定理： 若 $A\sim B$ ，则 $R (A) = R (B) * * 推论： * * 若存在$ P，Q $可逆矩阵使得$ PAQ=B$，则 $R (A) = R (B)$

常用的矩阵秩的性质:(矩阵 $A, B$ 的行数相同)

(i) $\left \{ R(A)，R(B) \right \}\leq R(A,B)\leq R(A)+R(B)$

证明： 因为 $A$ 的列向量可由 $(A, B)$ 列向量线性表示，所以 $R(A)\leq R(A,B)$ ,同理， $R(B)\leq R(A,B)$ ，所以 $\left \{ R(A)，R(B) \right \}\leq R(A,B)$ 。

设 $a_{1},a_{2},\cdots,a_{r_{1}}$ 为 $A$ 的列向量组的极大无关组, $b_{1},b_{2},\cdots,b_{r_{2}}$ 为 $B$ 的列向量组的极大无关组,则 $(A, B)$ 的列向量组可由 $a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}}$ 线性表示，所以 $R(A,B)=R(a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}})\leq R(A)+R(B)$ ，所以，结论成立.

(ii) $R(A+B)\leq R(A)+R(B)$

证明： 设 $a_{1},a_{2},\cdots,a_{r_{1}}$ 为 $A$ 的列向量组的极大无关组, $b_{1},b_{2},\cdots,b_{r_{2}}$ 为 $B$ 的列向量组的极大无关组,那么 $(A + B)$ 的中的每个列向量都可以用向量组 $a_{1},a_{2},\cdots,a_{r_{1}},b_{1},b_{2},b_{r_{2}}$ 线性表示，所以 $R(A+B)\leq R(A)+R(B)$

(iii) $R(AB)\leq min\left \{R(A),R(B) \right \}$

证明:因为矩阵
$AB=\begin{pmatrix} \alpha_{1}& \alpha_{2}& \cdots&\alpha_{m} \end{pmatrix}\begin{pmatrix} b_{11}&\cdots &b_{1s}\\ \vdots& & \vdots\\ b_{m1}& \cdots& b_{ms}&\\ \end{pmatrix}$

所以可知 $A B$ 的列向量组可由 $A$ 的列向量组表示,则 $R(AB)\leq R(A)$

同理，有
$\begin{pmatrix} a_{11}&\cdots &a_{1m}\\ \vdots& &\vdots\\ a_{n1}&\cdots&a_{nm}\\ \end{pmatrix} \begin{pmatrix} \beta_{1}\\\vdots\\\beta_{m}\\ \end{pmatrix}$

所以可知 $A B$ 的行向量组可由 $B$ 的行向量组表示,则 $R(AB)\leq R(B)$

所以， $R(AB)\leq min\left \{R(A),R(B) \right \}$

(iv) 若 $A_{m\times n}B_{n\times i}=O$ ,则 $R(A)+R(B)\leq n$

因为 $A B ＝ 0$
所以 $B$ 的列向量都是 $A X = 0$ 的解.
所以 $B$ 的列向量组可以由 $A X = 0$ 的基础解系线性表示
所以 $r (B) < = n - r (A)$
所以 $r (A) + r (B) < = n .$

5.线性方程组解的个数

设有 $n$ 个未知数 $m$ 个方程的线性方程组

$\left\{\begin{matrix} a_{11}x_{1}+a_{12}x_{2}+\cdots+a_{1n}x_{n}=b_{1}\\ a_{21}x_{1}+a_{22}x_{2}+\cdots+a_{2n}x_{n}=b_{2}\\ \cdots \cdots \cdots \tag{1} \\ a_{m1}x_{1}+a_{m2}x_{2}+\cdots+a_{mn}x_{n}=b_{m} \end{matrix}\right.$

(1)式可以写成以向量 $x$ 为未知元的向量方程
$\tag{2}$

定理： $n$ 元线性方程组 $A X = b$

(i) 无解的充分必要条件是 $R (A) < R (A, b)$ ；

(ii) 有唯一解的充分必要条件是 $R (A) = R (A, b) = n$

(iii) 有无限多解的充分必要条件是 $R (A) = R (A, b) < n$

定理： $n$ 元齐次线性方程组 $A x = 0$ 有非零解的充分必要条件是 $R (A) < n$

定理： 线性方程组 $A x = b$ 有解的充分必要条件是 $R (A) = R (A, b)$

四、矩阵秩在机器学习线性回归算法中的应用(中级)

$x_{1},x_{2},\cdots,x_{N},x_{i}\in \mathbb{R^{n}}$ 表示有 $N$ 个样本，每个样本是 $n$ 维向量

$y_{1},y_{2},\cdots,y_{N},y_{i}\in \mathbb{R^{1}}$ 表示每个样本的输出，每个输出都为一个标量.

$y_{1}=x_{11}a_{1}+x_{12}a_{2}+\cdots+x_{1n}a_{n}\\ y_{2}=x_{21}a_{1}+x_{22}a_{2}+\cdots+x_{2n}a_{n}\\ \vdots \\ y_{N}=x_{N1}a_{1}+x_{N2}a_{2}+\cdots+x_{Nn}a_{n} \begin{pmatrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}& x_{22}& \cdots& x_{2n}\\ \vdots&\vdots &\ddots &\vdots\\ x_{N1}&x_{N2} &\cdots &x_{Nn} \end{pmatrix}=\begin{pmatrix} y_{1}\\y_{2}\\\vdots\\y_{N} \end{pmatrix} \\ X_{N\times n}a_{n\times 1}=Y_{N\times 1}$

当 $N = n$ 且 $X_{N\times n}$ 可逆时： $a=X^{-1}Y$

一般情况下： $N\neq n$

那么 $min\left \| Xa-Y \right \|=J$ ,构造损失函数, $\frac{\partial J}{\partial a}=X^{T}(Xa-Y)=0，X^{T}Xa=X^{T}Y$ , $X^{T}X$ 是否可逆？

${\color{red}{关于此部分的矩阵损失函数求导以及以下的说明，后续会讲到}}$

1. $N > n$ ，如 $N = 5, n = 3$ , $(x^{T}x)_{3\times 3}$ 一般是可逆的， $a={\color{blue}{(X^{T}X)^{-1}X^{T}}}Y$ ,蓝色部分称为矩阵 $X$ 的伪逆矩阵

2. $N < n$ ,如 $N=3，n=5,(X^{T}X)_{5\times 5},R(X^{T}X)\leq R(X)\leq 3$ ,所以 $X^{T}X$ 不可逆。 $\color{red}{通过加入二范数正则化项，可解决不可逆问题}$

补充： 设 $A$ 为 $m\times n$ 实矩阵，$R(A^{T}A)=R(A)\$
证明： 证明 $\qquad(1)$ 与 $A^{T}AX=0\qquad (2)$ 同解系即可；如下：

显然 $(1)$ 的解是 $(2)$ 的解。设 $X_{0}$ 是 $(2)$ 的解，则 $A^{T}AX_{0}=0$
所以有 $X_{0}^{T}A^{T}AX_{0}=0,\qquad (AX_{0})^{T}AX_{0}=0$ ，则 $AX_{0}=0$ ，所以 $X_{0}$ 也是 $(2)$ 的解，即两个方程组同解进而基础解系含相同的个数的解向量。所以可得,

$n-R(A)=n-R(A^{T}A) \\ R(A^{T}A)=R(A)$

1.向量的线性相关，线性无关以及与可逆矩阵的关系

1.1 线性相关与线性无关

定义: 给定向量组 $A:a_{1},a_{2},\cdots,a_{m}$ ,如果存在不全为零的数 $k_{1},k_{2},\cdots,k_{m}$ ，使
$k_{1}a_{1}+k_{2}a_{2}+\cdots+k_{m}a_{m}=0$
则称向量组 $A$ 是线性相关的，否则为线性无关。

定理： 向量组 $a_{1},a_{2},\cdots a_{m}$ 线性相关的充分必要是它所构成的矩阵 $A=(a_{1},a_{2},\cdots,a_{m})$ 的秩小于向量个数 $m$ ；向量组线性无关的充分必要条件 $R (A) = m$ 。

例：试讨论 $n$ 维单位坐标向量组的线性相关性

解： $n$ 维单位坐标向量组构成的矩阵 $E=(e_{1},e_{2},\cdots,e_{n})$ 是由 $n$ 阶单位矩阵，由 $\left | E \right |=1\neq 0$ ,知 $R (E) = n$ ，即 $R (E)$ 等于向量组中向量个数，由定理可知，此向量组是线性无关的。

1.2 向量的内积，范数，正交，规范正交基

定义： 设有 $n$ 维向量 $x=[x_{1},x_{2},\cdots,x_{n}]^{T},\qquad y=[y_{1},y_{2},\cdots,y_{n}]$ ，令 $[x,y]=x_{1}y_{1}+x_{2}y_{2}+\cdots+x_{n}y_{n}$ 称为向量 $x$ 与 $y$ 的内积，内积是两个向量之间的一种运算，其结果是一个实数，用矩阵记号表示，当 $x$ 与 $y$ 都是列向量时，有
$x,y]=x^{T}y$

内积具有下列性质(其中 $x, y, z$ 为 $n$ 维向量， $\lambda$ 为实数)

(i) $[x,y]=\left[ y,x \right ]$

(ii) $[\lambda x,y]=\lambda [x,y]$

(iii) $[x + y, z] = [x, z] + [y, z]$

(iv)当 $x = 0$ 时， $[x,x]=0；当x\neq 0,[x,x]>0$

$\color{red}{由这些定义以及二维空间向量夹角的概念cos\theta =\frac{[a,b]}{\left \| a \right \|\left \| b \right \|}}$ ，我们可以推广到高维空间，也可以用来衡量高维空间中两个样本的相似度的一种度量(不同于欧氏距离)

柯西不等式

$[x,y]^{2}\leq[x,x][y,y]$

证明： $\forall x,y\in \mathbb{R}^{n},let:\quad z=x-\lambda y,[z,z]=[x-\lambda y,x-\lambda y]=[x,x]-2\lambda[x,y]+\lambda^{2}[y,y]\leq 0 \\ \forall \lambda,\Delta=4[x,y]^{2}-4[x,x][y,y]\leq 0,\qquad [x,y]^{2}\leq [x,x][y,y]$

范数与正交

**定义:**令 $\left \| x \right \|=\sqrt{[x,x]}=\sqrt{x_{1}^{2}+x_{2}^{2}+\cdots+x_{n}^{2}}$ , $\qquad \left \| x \right \|$ 称为 $n$ 维向量 $x$ 的长度(或者范数).

当 $\left \| x \right \|=1$ 时，称 $x$ 为单位向量

向量的长度具下述性质：

(i)非负性，当 $x\neq 0$ 时， $\left \| x \right \|>0;$ 当 $x = 0$ 时， $\left \| x \right \|=0$

当 $[x, y] = 0$ 时，，称向量 $x$ 与 $y$ 正交，显然，若 $x = 0$ ，则 $x$ 与任何向量都正交.

定理: 若 $n$ 维向量 $a_{1},a_{2},\cdots a_{r}$ 是一组两两正交的非零向量，则 $a_{1},a_{2},\cdots,a_{r}$ 线性无关.

规范正交基

定义: 设 $n$ 维向量 $e_{1},e{2},\cdots,e_{r}$ 是向量空间 $V(V\in \mathbb{R}^{n})$ 的一个基，如果 $e_{1},e_{2},\cdots e_{r}$ 两两正交，且都为单位向量，则称 $e_{1},e_{2},\cdots e_{r}$ 是 $V$ 的一个规范正交基.

若 $e_{1},e_{2},\cdots e_{r}$ 是 $V$ 的一个规范正交基，那么 $V$ 中的任一向量 $a$ 应能由 $e_{1},e_{2},\cdots e_{r}$ 线性表示。

2.施密特正交化

设 $a_{1},\cdots,a_{r}$ 是向量空间 $V$ 的一个基，要求 $V$ 的一个规范正交基，这也就是要找一组两两正交的单位向量 $e_{1},\cdots,e_{r}$ ，使 $e_{1},\cdots,e_{r}$ 与 $a_{1},\cdots,a_{r}$ 等价，这样的一个问题，称为把 $a_{1},a_{2},\cdots,a_{r}$ 这个基规范正交化。

我们可以用以下办法把 $a_{1},\cdots,a_{r}$ 规范正交化：取
$b_{1}=a;\\b_{2}=a_{2}-\frac{[b_{1},a_{2}]}{[b_{1},b_{1}]}b_{1}\\\cdots\cdots\cdots\\b_{r}=a_{r}-\frac{[b_{1},a_{r}]}{[b_{1},b_{1}]}b_{1}-\frac{[b_{2},a_{r}]}{[b_{2},b_{2}]}b_{2}-\cdots-\frac{[b_{r-1},a_{r}]}{[b_{r-1},b_{r-1}]}b_{r-1}$

容易验证， $b_{1},b_{2},\cdots,b_{r}$ 两两正交，且 $b_{1},\cdots，b_{r}$ 与 $a_{1},\cdots a_{r}$ 等价，然后只要对它们单位化，即取

$e_{r}=\frac{1}{\left \| b_{r} \right \|}b_{r}.\qquad (r=1,2,\cdots,)$
就是空间 $V$ 的一个规范正交基

定义： 如果 $n$ 阶矩阵 $A$ 满足 $A^{T}A=E$ (即 $A^{-1}=A^{T}$ ),那么称 $A$ 为正交矩阵，简称正交阵

上式用 $A$ 的列向量表示，即是
$\begin{bmatrix} a_{1}^{T}\\a_{2}^{T},\\ \vdots\\a_{n}^{T} \end{bmatrix}(a_{1},a_{2},\cdots,a_{n}) =E$

因为 $A^{T}A=E$ 与 $AA^{T}=E$ 等价，所以上述结论对 $A$ 的行向量亦成立。
由此可见， $n$ 阶正交阵 $A$ 的 $n$ 个列(行)向量构成向量空间 $\mathbb{R}^{n}$ 的一个规范正交基

3.特征值和特征向量的定义以及直观的意义

定义: 设 $A$ 是 $n$ 阶矩阵，如果数 $\lambda$ 和 $n$ 维非零列向量 $x$ 使关系式
$Ax=\lambda x$
成立，那么，这样的数 $\lambda$ 称为矩阵 $A$ 的特征值，非零向量 $x$ 称为 $A$ 的对应特征值 $\lambda$ 的特征向量

直观意义:将一个矩阵作用在一个向量上，即线性变换，得到的向量与原向量平行(或者说线性相关)

特征方程： $(A-\lambda E)x=0$

特征多项式
$\begin{vmatrix} a_{11}-\lambda& a_{12}&\cdots &a_{1n} \\ a_{21}&a_{22}-\lambda &\cdots &a_{2n}\\ \vdots&\vdots &\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn}-\lambda \end{vmatrix}=0$

推论

(i) $\lambda_{1}+\lambda_{2}+\cdots+\lambda_{n}=tr(A)$

(ii) $\lambda_{1}\lambda_{2}\cdots\lambda_{n}=|A|$

设 $\lambda=\lambda_{i}$ 为矩阵 $A$ 的一个特征值，则由方程 $(A-\lambda_{i}E)x=0$ 可求得非零解 $x=p_{i}$ ，那么 $p_{i}$ 便是 $A$ 的对应特征值 $\lambda_{i}$ 的特征向量.

ps: 对于任意矩阵 $A$ 其线性无关的特征向量个数小于矩阵的阶数(即特征值的个数(包含重根个数))

(iii)设 $\lambda$ 是方阵 $A$ 的特征值，则 $\lambda^{2}$ 是 $A^{2}$ 的特征值；当 $A$ 可逆时， $\frac{1}{\lambda}$ 是 $A^{-1}$ 的特征值

Prove： $\because \qquad \lambda$ 是 $A$ 的特征值

$\therefore \qquad p\neq 0\qquad\qquad such \quad that \quad Ap=\lambda p$

$\therefore \qquad A^{2}p=A(Ap)=A(\lambda p)=\lambda(Ap)=\lambda^{2}p$

$W h e n A$ 是可逆时，由 $Ap=\lambda p$ ，有 $p=\lambda A^{-1}p$ ，由于 $p\neq 0$ ，知 $\lambda \neq 0$

$\therefore A^{-1}p=\frac{1}{\lambda}p$

按此例类推，不难证明：若 $\lambda$ 是 $A$ 的特征值，则 $\lambda^{k}$ 是 $A^{k}$ 的特征值； $\varphi (\lambda)$ 是 $\varphi (A)$ 的特征值，其中 $\varphi (\lambda)=a_{0}+a_{1}\lambda +\cdots+a_{m}\lambda^{m}$ 是 $\lambda$ 的多项式， $\varphi (A)=a_{0}E+a_{1}A+\cdots+a_{m}A^{m}$ 是矩阵 $A$ 的多项式

定理： 设 $\lambda_{1},\lambda_{2},\cdots,\lambda^{m}$ 是矩阵 $A$ 的 $m$ 个特征值， $p_{1},p_{2},\cdots p_{m}$ 依次是与之对应的特征向量，如果 $\lambda_{1},\cdots,\lambda_{m}$ 各不相等，则 $p_{1},p_{2},\cdots,p_{m}$ 线性无关.

例题设 $\lambda_{1} \quad and \quad \lambda_{2}$ 是矩阵 $A$ 的两个不同的特征值，对应的特征向量依次为 $p_{1}$ 和 $p_{2}$ ，证明 $p_{1}+p_{2}$ 不是 $A$ 的特征向量.

证明： 由题可知， $Ap_{1}=\lambda_{1}p_{1},\qquad A_{2}p=\lambda^{2}p_{2}$ ,所以有 $A(p_{1}+p_{2})=\lambda_{1}p_{1}+\lambda_{2}p_{2}$

用反证法，假设 $p_{1}+p_{2}$ 是 $A$ 的特征向量，则应存在数 $\lambda$ ，使得 $A(P_{1}+P_{2})=\lambda(P_{1}+P_{2})$ ，于是

$\lambda(p_{1}+p_{2})=\lambda_{1}p_{1}+\lambda_{2}p_{2}$ ,即 $(\lambda_{1}-\lambda)p_{1}+(\lambda_{2}-\lambda)p_{2}=0$

因为 $\lambda_{1}\neq \lambda_{2}$ ，所以按照定理可知 $p_{1},p_{2}$ 线性无关，故由上式得 $\lambda_{1}-\lambda=\lambda_{2}-\lambda=0$ ,即 $\lambda_{1}=\lambda_{2}$ 。与假设矛盾，因此 $p_{1}+p_{2}$ 不是 $A$ 的特征向量。

五、相似矩阵的定义以及矩阵的对角化

**定义：**设 $A, B$ 都是 $n$ 阶矩阵，若有可逆矩阵 $P$ ,使得
$P^{-1}AP=B \qquad OR \qquad PAP^{-1}=B$
则称 $B$ 是 $A$ 的相似矩阵，或者说矩阵 $A$ 与 $B$ 相似，对 $A$ 进行运算 $P^{-1}AP$ 称为对 $A$ 进行相似变换，可逆矩阵 $P$ 称为把 $A$ 变成 $B$ 的相似变换矩阵.

定理： 若 $n$ 阶矩阵 $A$ 与 $B$ 相似，则 $A$ 与 $B$ 的特征多项式相同，从而 $A$ 与 $B$ 的特征值亦相同。

证明： 设矩阵 $B$ 的特征多项式为
$f_{B(\lambda)}=|B-\lambda E|=|P^{-1}AP-\lambda P^{-1}EP|=|P^{-1}(A-\lambda E)P|=|A-\lambda E|$

推论： 若 $n$ 阶矩阵$A与对角阵相似

$\Lambda=\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}$
相似，则 $\lambda_{1},\lambda_{2},\cdots,\lambda_{n}$ 即 $A$ 的 $n$ 个特征值。

下面我们要讨论的主要问题是：对 $n$ 阶矩阵 $A$ ,寻求相似变换矩阵 $P$ ，使得
$P^{-1}AP=\Lambda$ 为对角阵，这就称为把矩阵 $A$ 对角化.

假设已经找到可逆矩阵 $P$ ，使得 $P^{-1}AP=\Lambda$ ,我们来讨论 $P$ 应满足什么关系.

把 $P$ 用其列向量表示为
$P=(p_{1},p_{2},\cdots,p_{n})$
由 $P^{-1}AP=\Lambda$ ,得到 $AP=P\Lambda$

即
$A(p_{1},p_{2},\cdots,p_{n})=(p_{1},p_{2},\cdots,p_{n})\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}=(\lambda_{1}p_{1},\lambda_{2}p_{2},\cdots,\lambda_{n}p_{n})$

于是有， $Ap_{i}=\lambda_{i}p_{i},\quad (i=1,2,\cdots,n)$

5.1一般矩阵对角化的条件

定理： $n$ 阶矩阵 $A$ 与对角阵相似(即 $A$ 能对角化)的充分必要条件是 $A$ 有 $n$ 个线性无关的特征向量.

定理： 设 $\lambda_{1},\lambda_{2},\cdots,\lambda_{m}$ 是方阵 $A$ 的 $m$ 个特征值， $p_{1},p_{2},\cdots,p_{m}$ 依次是与之对应的特征向量，如果 $\lambda_{1},\lambda_{2},\cdots,\lambda_{m}$ 各不相等， $p_{1},p_{2},\cdots,p_{m}$ 线性无关。

推论： 如果 $n$ 阶矩阵 $A$ 的 $n$ 个特征值互不相等，则 $A$ 与对角阵相似。

5.2 对称矩阵对角化

定理： 实对称矩阵的特征值为实数。

证明： 设实对称矩阵 $A$ 的特征值为 $\lambda$ ，特征向量为 $x$ ，那么

$Ax=\lambda x \qquad (1)\qquad \qquad$ 等式两边取共轭，那么得到 $\bar{A}\bar{x}=\bar{\lambda}\bar{x}$ ,

又因为 $A$ 为实对称矩阵，所以可得 $A\bar{x}=\bar{\lambda}\bar{x}$ ,等式(1)两边转置并右乘以 $\bar{x}$ ，得
$x^{T}A\bar{x}=\lambda x^{T}\bar{x}$
所以， $\bar{\lambda}x^{T}\bar{x}=\lambda x^{T}\bar{x}$ ,又因为 $x$ 为非零向量，所以 $\bar{\lambda}=\lambda$ ，即 $\lambda$ 为实数.

定理设 $\lambda_{1},\lambda_{2}$ 是对称矩阵 $A$ 的两个特征值， $p_{1},p_{2}$ 是对应特征向量，若 $\lambda_{1} \neq \lambda_{2}$ ,则 $p_{1}$ 与 $p_{2}$ 正交。

证明： 由题可知， $\lambda_{1}p_{1}^{T}=(\lambda_{1}p_{1})^{T}=(Ap_{1})^{T}=p_{1}^{T}A$ ,于是 $\lambda_{1}p_{1}^{T}p_{2}=p_{1}^{T}Ap_{2}=p_{1}^{T}\lambda_{2}p_{2}=\lambda_{2}p_{1}^{T}p_{2}$
即
$(\lambda_{1}-\lambda_{2})p_{1}^{T}p_{2}=0$

但是 $\lambda_{1}\neq \lambda_{2}$ ,故 $p_{1}^{T}p_{2}=0$ ，即 $p_{1}与p_{2}$ 正交。

**结论：**实对称矩阵 $n\times n$ 一定可以对角化，且一定有 $n$ 个线性无关的特征向量.

定理： 设 $A$ 为 $n$ 阶对称阵，则必有正交矩阵 $P$ ，使得 $P^{-1}AP=P^{T}AP=\Lambda$ ,其中 $\Lambda$ 是以 $A$ 的 $n$ 个特征值为对角元的对角阵。

推论： 设 $A$ 为 $n$ 阶对称阵， $\lambda$ 是 $A$ 的特征方程的 $k$ 重根，则矩阵 $A-\lambda E$ 的秩 $R(A-\lambda E)=n-k$ ,且对应特征值 $\lambda$
恰有 $k$ 个线性无关的特征向量.

对称矩阵对角化步骤:

(i)求出 $A$ 的全部互不相等的特征值 $\lambda_{1},\lambda_{2},\cdots,\lambda_{s}$ ,它们的重数依次为 $k_{1},k_{2},\cdots,k_{s},\qquad (k_{1}+k_{2}+\cdots+k_{s}=n)$ 。

(ii)对每个 $k_{i}$ 重特征值 $\lambda_{i}$ ，求方程 $(A-\lambda_{i}E)x=0$ 的基础解系。得 $k_{i}$ 个线性无关得特征向量，再把它们正交化，单位化，得 $k_{i}$ 个两两正交的单位特征向量，因为 $k_{1}+\cdots+k_{s}=n$ ，故总共可得 $n$ 个两两正交的单位特征向量。

(iii) 把这 $n$ 个两两正交的单位特征向量构成正交矩阵 $P$ ，便有 $P^{-1}AP=P^{T}AP=\Lambda$ ,注意 $\Lambda$ 中的对角元的排列次序应与 $P$ 中列向量的排列次序相对应。

5.3 对角化在数据压缩算法中的简单应用

$A$ 为 $n$ 阶对称阵
$A=P^{-1}\Lambda P=P^{T}\Lambda P$

存 $n$ 阶的对称阵需要多少个参数呢？ $\frac{n(n+1)}{2}$ 个

令 $P^{T}=(P_{1},P_{2},\cdots,P_{N})$

$A=(P_{1},p_{2},\cdots,p_{n})\begin{pmatrix} \lambda_{1}& & &\\ & \lambda_{2}& &\\ & & \ddots&\\ & & &\lambda_{n} \end{pmatrix}\begin{pmatrix} p_{1}^{T}\\p_{2}^{T}\\\vdots\\p_{n}^{T} \end{pmatrix}=\lambda_{1}p_{1}p_{1}^{T}+\lambda_{2}p_{2}p^{T}_{2}+\cdots+\lambda_{n}p_{n}p_{n}^{T}\tag{1}$

假设 $|\lambda_{1}|\geq|\lambda_{2}|\geq|\lambda_{3}|\cdots \geq|\lambda_{n}|$

现在需要节省内存，可在损失一点精度的情况下来节省内存。对式子 $(1)$ 近似，可得

$A\approx \lambda_{1}p_{1}p_{1}^{T}+\cdots+\lambda_{k}p_{k}p_{k}^{T} \qquad k\leq n$
那么此时需要多少个参数存 $A$ 矩阵呢？

首先 $\lambda_{1},\cdots,\lambda_{k}$ 有 $k$ 个参数，以及向量 $p_{1},\cdots,p_{k}$ 有 $n\times k$ 个参数，总共有 $k (n + 1)$ 个参数。

而原需要 $\frac{n(n+1)}{2}=\frac{n}{2}(n+1)$

若 $n = 100$ ，取 $k = 10$ ，那么可节省5倍内存.

损失精度为：
$err=1-\frac{\sum_{i=1}^{k}|\lambda_{i}|}{\sum^{n}_{i=1}|\lambda_{i}|}$

5.4 二次型以及矩阵的正定性

在解析几何中，为了便于研究二次曲线
$ax'^{2}+bx'y'+cy'^{2}=1$
的几何性质，可以选择适当的坐标旋转变换
$\left\{\begin{matrix} x={x}'cos\theta-{y}'sin\theta\\ y={x}'sin\theta+{y}'cos\theta \end{matrix}\right.$
即
$\begin{pmatrix} x\\y \end{pmatrix}=\begin{pmatrix} cos\theta&-sin\theta\\ sin\theta&cos\theta \end{pmatrix}\begin{pmatrix} {x}'\\{y}' \end{pmatrix}$

把方程化为标准型
$m{x}^{2}+n{y}^{2}=1$

定义： 含有 $n$ 个变量 $x_{1},x_{2},\cdots,x_{n}$ 的二次齐次函数
$f(x_{1},x_{2},\cdots,x_{n})=a_{11}x_{1}^{2}+a_{22}x_{2}^{2}+\cdots+a_{nn}x_{n}^{2}+2a_{12}x_{1}x_{2}+2a_{13}x_{1}x_{3}+ \cdots+2a_{n-1,n}x_{n-1}x_{n}$
称为二次型。

对于二次型，我们讨论的主要问题是：寻找可逆的线性变换
$\left\{\begin{matrix} x_{1}=c_{11}y_{1}+c_{12}y_{2}+\cdots+c_{1n}y_{n}\\ x_{2}=c_{21}y_{1}+c_{22}y_{2}+\cdots+c_{2n}y_{n}\\ \cdots \cdots\\ x_{n}=c_{n1}y_{1}+c_{n2}y_{2}+\cdots+c_{nn}y_{n} \end{matrix}\right.$
使二次型只含平方项，也就是 $f=k_{1}y_{1}^{2}+k_{2}y_{2}^{2}+\cdots+k_{n}y_{n}^{2}$
这种只含平方项的二次型，称为二次型的标准型(或法式)

如果标准形的系数 $k_{1},k_{2},k_{n}$ 只在1，-1，0三个数中取值，能使
$f=y_{1}^{2}+y_{2}^{2}-y_{3}^{2}+\cdots$
称上式为二次型的规范型.

一般的二次型可写成
$f=a_{11}x_{1}^{2}+a_{12}x_{1}x_{2}+\cdots+a_{1n}x_{1}x_{n}+ \\a_{21}x_{2}x_{1}+a_{22}x_{2}^{2}+\cdots+a_{2n}x_{2}x_{n} \\+\cdots+a_{n1}x_{n}x_{1}+a_{n2}x_{n}x_{2}+\cdots+a_{nn}x_{n}^{2} \\=\sum_{i,j=1}^{n}a_{ij}x_{i}x_{j} \\=\begin{pmatrix} x_{1}&x_{2},\cdots,x_{n} \end{pmatrix}\begin{pmatrix} a_{11}& a_{12}&\cdots &a_{1n}\\ a_{21}& a_{22}&\cdots &a_{2n}\\ \vdots& \vdots&\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn} \end{pmatrix}\begin{pmatrix} x_{1}\\x_{2}\\\vdots\\x_{n} \end{pmatrix}$

记
$A=\begin{pmatrix} a_{11}& a_{12}&\cdots &a_{1n}\\ a_{21}& a_{22}&\cdots &a_{2n}\\ \vdots& \vdots&\ddots &\vdots\\ a_{n1}&a_{n2} &\cdots &a_{nn} \end{pmatrix},\qquad x=\begin{pmatrix} x_{1}\\x_{2}\\\vdots\\x_{n} \end{pmatrix}$

则二次型可记作
$f=x^{T}Ax$
其中 $A$ 为对称阵.

如果 $A$ 是对角矩阵该多好呀，就变成了标准型甚至规范型.

由前面可知，实对称矩阵一定可对角化，即 $\Lambda=P^{T}A P=P^{-1}A P$

设 $x = P y$ ，则 $f=y^{T}P^{T}APy=y^{T}\Lambda y$ ,

推论： 对称矩阵 $A$ 为正定的充分必要条件是： $A$ 的特征值全为正.

定义： 设有二次型 $f(x)=x^{T}Ax$ ,如果对任何 $x\neq 0$ ，都有 $f (x) > 0$ (显然f(0)=0)，则称 $f$ 为正定二次型，并称对称阵 $A$ 是正定的；如果对任何
$x\neq 0$ ，都有 $f (x) < 0$ ,则称 $f$ 为负定二次型，并称对称矩阵 $A$ 是负定的。

$x^{T}Ax=\sum_{i=1}^{n}\lambda_{i}y_{i}^{2}>0$ ,则 $\lambda_{i}$ 都为正；正定。

定理： $n$ 元二次型 $f=x^{T}Ax$ 为正定的充分必要条件：它的标准型的 $n$ 个系数全为正，即它的规范型的 $n$ 个系数全为1，亦即它的正惯性指数等于 $n$ 。

补充半正定：
$x^{T}Ax\geq 0 \Leftrightarrow \lambda_{i}\geq 0$ ,注意 $x\neq 0$

补充负半定:
$x^{T}Ax\leq 0 \Leftrightarrow \lambda_{i}\leq 0$ ,注意 $x\neq 0$

六、矩阵的正定型在机器学习线性回归算法中的运用(高级)

根据文章之前所述，有个问题待解决，问题如下：

$\quad as \quad N=3,n=5\\ (X^{T}X)_{5\times 5}\quad ,R(X^{T}X)\leq R(X)\leq 3$
故 $X^{T}X$ 不可逆

此刻，可重新定义损失函数 $J=||Xa-Y||+\lambda ||a||^{2}$

求导，得到 $\frac{\partial J}{\partial a}=X^{T}Xa-X^{T}Y+\lambda a=0$
,那么
$(X^{T}X+\lambda I)a=X^{T}Y$
且 $(X^{T}X+\lambda I)$ 必可逆，即可得 $a=(X^{T}X+\lambda I)^{-1}X^{T}Y$

$\color{red}{关于证明矩阵X^{T}X+\lambda I}可逆$

证明： 从正定性角度来证明

1. $a_{T}(x^{T}x)a=(xa)^{T}(xa)\geq 0$ ,即矩阵 $X^{T}X$ 半正定，所以 $\lambda_{i}\geq 0$

又因为矩阵(不局限于对称矩阵)的行列式等于其所有特征值相乘，即 $x^{T}x=\lambda_{1}\lambda_{2}\cdots\lambda_{n}$
以下对对称矩阵 $X^{T}X=P^{-1}\begin{pmatrix} \lambda_{1}& &\\ & \ddots&\\ & &\lambda_{n} \end{pmatrix}P$