【机器学习】数学基础——线性代数篇

最新推荐文章于 2021-12-29 11:27:51 发布

AlvaIce

最新推荐文章于 2021-12-29 11:27:51 发布

阅读量489

点赞数

分类专栏：机器学习数学基础

本文链接：https://blog.csdn.net/sinat_23854139/article/details/89195044

版权

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

数学基础

3 篇文章 0 订阅

订阅专栏

文章目录

下面这几篇文章对我理解线性空间和矩阵有着非常大的帮助，有一种想见恨晚的感觉。

一、向量及其运算

维基百科：https://en.wikipedia.org/wiki/Euclidean_vector

向量：有大小(长度)和方向的物理对象，也称为矢量。有行向量和列向量。
$\textbf{a}=\left [ a_{1},a_{2},a_{3} \right ],\textbf{b}=\left [ b_{1},b_{2},b_{3} \right ]$

加减法：满足交换律、分配律和结合律。处于同一坐标系的两个向量可以进行加减法计算，对应元素相加或相减。
$\textbf{a} \pm \textbf{b}=\left [ a_{1}\pm b_{1},a_{2}\pm b_{2},a_{3}\pm b_{3} \right ]$
数乘(Scalar multiplication)：向量中的每一个要素都要乘上标量 $r(r\in \mathbb{R})$ 。
$\textbf{a}=\left [ ra_{1},ra_{2},ra_{3} \right ]$
点乘(Dot product)：也称为内积(inner product)，结果是标量。
$\textbf{a} \cdot \textbf{b}=a_{1}b_{1}+a_{2}b_{2}+a_{3}b_{3}$
叉乘(Cross product)：解析几何中也称为外积(outer product)，结果是向量。
$\textbf{a} \times \textbf{b}=[a_{2}b_{3}-a_{3}b_{2},a_{3}b_{1}-a_{1}b_{3},a_{1}b_{2}-a_{2}b_{1}]$
外积(Outer product)：线性代数中的外积，用符号 $\circ$ 表示，结果是一个矩阵。
$\textbf{a} \circ \textbf{b}=\textbf{a}^T\textbf{b}=\begin{bmatrix} a_1b_1 & a_1b_2 & a_1b_3\\ a_2b_1 & a_2b_2 & a_2b_3\\ a_3b_1 & a_3b_2 & a_3b_3 \end{bmatrix}$
模(Norm)：也称为向量的长度(length)，通常用 $\left \| \textbf{a} \right \|$ 表示。
$\left \| \textbf{a} \right \|=\sqrt{\textbf{a} \cdot \textbf{a} }=\sqrt{a_{1}^2+a_{2}^2+a_{3}^2}$

二、矩阵及其运算

维基百科：https://en.wikipedia.org/wiki/Matrix_(mathematics)
https://en.wikipedia.org/wiki/Invertible_matrix （逆矩阵）
https://en.wikipedia.org/wiki/Adjugate_matrix （伴随矩阵）
https://en.wikipedia.org/wiki/Generalized_inverse（广义逆）

矩阵：由数字、符号、表达式，组织成行和列的矩形数组。在应用中，矩阵是具有相同特征和纬度的对象的集合，表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行，一个特征表示为矩阵中的一列，每个特征都有数值型的取值。

矩阵乘法(Matrix multiplication)：如果， $A$ 是 $m\times n$ 矩阵， $B$ 是 $n\times p$ 矩阵，则 $A B$ 是 $m\times p$ 矩阵。矩阵 $A B$ 的第 $i$ 行 $j$ 列的值是矩阵 $A$ 的第 $i$ 行与矩阵 $B$ 的第 $j$ 列的向量的点乘结果。矩阵乘法满足结合律和分配律，但不满足交换律。
转置矩阵： $m\times n$ 维的矩阵 $A$ ，转置后得到的 $A^{T}$ 的维度是 $n\times m$ ,有 $A^{T}_{ij}=A_{ji}$ 。
逆矩阵：对于方阵 $A$ ，如果存在方阵 $B$ ，使得 $AB=BA=I_{n}$ ,其中 $I_{n}$ 是单位矩阵,则称矩阵 $A$ 和矩阵 $B$ 互为逆矩阵。矩阵 $A$ 可逆当且仅当它是满秩矩阵。
$A^{-1}=\frac{A^*}{\left | A \right |}$ $A^*=\begin{bmatrix} A_{11} & A_{21} & \cdots & A_{n1}\\ A_{12} & A_{22} & \cdots & A_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ A_{1n} & A_{2n} & \cdots & A_{nn} \end{bmatrix}，是A的伴随矩阵,其中A_{ij}=(-1)^{i+j}M_{ij}$ $M_{ij}是将矩阵A的元素a_{ij}所在的第i行第j列元素划去后，得到的n-1阶矩阵所确定的行列式$
广义逆：伪逆矩阵是逆矩阵的广义形式。由于奇异矩阵或非方阵的矩阵不存在逆矩阵，定义一个与 $A$ 的转置矩阵 $A^{T}$ 同型的矩阵 $X$ 。若满足条件1，称矩阵 $X$ 是矩阵 $A$ 的广义逆矩阵(generalized inverse)；若满足条件1、2，称矩阵 $X$ 是矩阵 $A$ 的自反广义逆(reflexive generalized inverse)；若同时满足4个条件，,此时称矩阵 $X$ 是矩阵 $A$ 的伪逆(pseudoinverse)。
$1.AXA=A；\ \ 2.XAX=X；\ \ 3.(AX)^*=AX；\ \ 4.(XA)^*=XA$

要点：任何广义逆都可以用来确定线性方程组是否有解，如果有，则给出所有解。对于任意有解的 $n\times m$ 线性方程组 $A\textbf{x}=b$ ，向量 $\textbf{x}$ 未知，向量 $b$ 是常量，矩阵 $X$ 是矩阵 $A$ 的广义逆， $\omega$ 是任意向量参数，则
$\textbf{x}=Xb+[I-XA]\omega$

由上式可知，线性方程组有解，当且仅当 $X b$ 是其中的一个解。

三、张量及其运算

维基百科：https://en.wikipedia.org/wiki/Tensor

张量：几何代数中定义的张量是基于向量和矩阵的推广，通俗一点理解的话，我们可以将标量视为零阶张量，矢量视为一阶张量，那么矩阵就是二阶张量。
$A=\begin{bmatrix} a_{1,1} & a_{1,2}\\ a_{2,1} & a_{2,2}\\ a_{3,1} & a_{3,2} \end{bmatrix},B=\begin{bmatrix} b_{1,1} &b_{1,2} &b_{1,3}\\ b_{2,1} & b_{2,2} &b_{1,3} \end{bmatrix}$

张量积：张量在向量空间里的线性映射，用符号 $\bigotimes$ 表示，若张量 $A$ 是 $v\times w$ ,张量 $B$ 是 $x\times y$ ,则张量 $A\bigotimes B$ 是 $(v\times x)\times (w\times y)$ 。
$\begin{aligned} A\bigotimes B &=\begin{bmatrix} a_{1,1}\begin{bmatrix} b_{1,1} &b_{1,2} &b_{1,3}\\ b_{2,1} & b_{2,2} &b_{2,3} \end{bmatrix}& a_{1,2}\begin{bmatrix} b_{1,1} &b_{1,2} &b_{1,3}\\ b_{2,1} & b_{2,2} &b_{2,3} \end{bmatrix}\\ a_{2,1}\begin{bmatrix} b_{1,1} &b_{1,2} &b_{1,3}\\ b_{2,1} & b_{2,2} &b_{2,3} \end{bmatrix} & a_{2,2}\begin{bmatrix} b_{1,1} &b_{1,2} &b_{1,3}\\ b_{2,1} & b_{2,2} &b_{2,3} \end{bmatrix}\\ a_{3,1}\begin{bmatrix} b_{1,1} &b_{1,2} &b_{1,3}\\ b_{2,1} & b_{2,2} &b_{2,3} \end{bmatrix} & a_{3,2}\begin{bmatrix} b_{1,1} &b_{1,2} &b_{1,3}\\ b_{2,1} & b_{2,2} &b_{2,3} \end{bmatrix} \end{bmatrix} \\ & =\begin{bmatrix} a_{1,1}b_{1,1} & a_{1,1}b_{1,2} & a_{1,1}b_{1,3} & a_{1,2}b_{1,1} & a_{1,2}b_{1,2} & a_{1,2}b_{1,3} \\ a_{1,1}b_{2,1} & a_{1,1}b_{2,2} &a_{1,1} b_{2,3} & a_{1,2}b_{2,1} & a_{1,2}b_{2,2} & a_{1,2}b_{2,3} \\ a_{2,1}b_{1,1} & a_{2,1}b_{1,2} & a_{2,1}b_{1,3} & a_{2,2}b_{1,1} & a_{2,2}b_{1,2} & a_{2,2}b_{1,3} \\ a_{2,1}b_{2,1} & a_{2,1}b_{2,2} &a_{2,1} b_{2,3} & a_{2,2}b_{2,1} & a_{2,2}b_{2,2} & a_{22}b_{2,3} \\ a_{3,1}b_{1,1} & a_{3,1}b_{1,2} & a_{3,1}b_{1,3} & a_{3,2}b_{1,1} & a_{3,2}b_{1,2} & a_{3,2}b_{1,3} \\ a_{3,1}b_{2,1} & a_{3,1}b_{2,2} &a_{3,1} b_{2,3} & a_{3,2}b_{2,1} & a_{3,2}b_{2,2} & a_{3,2}b_{2,3} \\ \end{bmatrix}\end{aligned}$

四、行列式与线性方程组

维基百科：https://en.wikipedia.org/wiki/Determinant
https://en.wikipedia.org/wiki/System_of_linear_equations
行列式：在线性代数中，行列式是一个标量。方阵 $A$ 的行列式记为 $d e t (A)$ 、 $d e t A$ 或者 $∣ A ∣$ 。
$|A|=\begin{vmatrix} a& b\\ c& d \end{vmatrix}=ad-bc$ $\begin{aligned} |A|=\begin{vmatrix} a& b&c\\ d& e&f\\ g& h&i\\ \end{vmatrix}& =a\begin{vmatrix} \square & \square &\square \\ \square & e&f\\ \square & h&i\\ \end{vmatrix}-b\begin{vmatrix} \square & \square &\square \\ d& \square &f\\ g& \square &i\\ \end{vmatrix}+c\begin{vmatrix} \square & \square &\square \\ d& e&\square \\ g& h&\square \\ \end{vmatrix} \\ & =a\begin{vmatrix} e&f\\ h&i\\ \end{vmatrix}-b\begin{vmatrix} d&f\\ g&i\\ \end{vmatrix}+c\begin{vmatrix} d& e\\ g& h\\ \end{vmatrix}\\ & =aei+bfg+cdh-afh-bdi-ceg \end{aligned}$

线性方程组：在数学中，一个线性方程组是两个或两个以上的线性方程的集合，包含同一组变量。包含 $n$ 个变量的 $m$ 个线性方程组，可记作：
$\begin{aligned} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n &= & b_{1}\\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n &= & b_{2}\\ & \ \ \vdots &\\a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n &= & b_{m}\end{aligned}$ $其中，x_1,x_2,…,x_n是未知量，a_{11},a_{12},…,a_{mn}是方程组的系数，b_1,b_2,…,b_n是常量。$

矩阵方程式可记成 $A\textbf x=b$ 。
$A=\begin{bmatrix}a_{11}&a_{12}&\cdots &a_{1n}\\ a_{21}&a_{22}&\cdots &a_{2n}\\ \vdots&\vdots&\ddots &\vdots \\a_{m1}&a_{m2}&\cdots &a_{mn}\\\end{bmatrix},\textbf x=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix},b=\begin{bmatrix}b_1\\b_2\\\vdots\\b_m\end{bmatrix}$

五、二次型与正定性

维基百科：https://en.wikipedia.org/wiki/Quadratic_form
https://en.wikipedia.org/wiki/Definiteness_of_a_matrix

二次型：多项式中每一项都是二次的，我们把这样的多项式称为二次型。二次型的多项式可写成如下，其中 $a_{ij}=a_{ji},1\leq i,j\leq n$ 。
$\begin{aligned} f(x_{1},x_{2},…,x_{n})&=a_{11}x_1^2+a_{12}x_1x_2+\cdots+a_{1n}x_1x_n\\&+a_{21}x_2x_1+a_{22}x_2^2+\cdots+a_{2n}x_2x_n\\& + \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdot \\& + a_{n1}x_nx_1+a_{n2}x_nx_2+\cdots+a_{nn}x_n^2 \end{aligned}$ $令A=\begin{bmatrix}a_{11}&a_{12}&\cdots &a_{1n}\\ a_{21}&a_{22}&\cdots &a_{2n}\\ \vdots&\vdots&\ddots &\vdots \\a_{n1}&a_{n2}&\cdots &a_{nn}\\\end{bmatrix},\textbf x=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix},$

则二次型可以写成如下，称为二次型的矩阵形式，其中 $A$ 为对称矩阵，且与二次型 $f$ 有一一对应关系，称 $A$ 为二次型 $f(x_{1},x_{2},…,x_{n})$ 的矩阵， $f$ 也称为对称矩阵 $A$ 的二次型。
$f(x_{1},x_{2},…,x_{n})=X^TAX$

要点：二次型的矩阵是唯一的，它的主对角线是平方项的系数， $a_{ij}$ 是 $x_ix_j(i\neq j)$ 系数的一半。

正定性：设 $M$ 是 $n$ 阶方阵，如果对任何非零向量 $z$ ，都有 $z^TMz> 0$ ，其中 $z^T$ 表示 $z$ 的转置，就称 $M$ 为正定矩阵。正定矩阵的定义及性质，详见参考资料，不再赘述。判别对阵矩阵 $A$ 的正定性有两种方法：
1.求出A的所有特征值。若 $A$ 的特征值均为正数，则 $A$ 是正定的；若 $A$ 的特征值均为负数，则 $A$ 为负定的。
2.计算 $A$ 的各阶顺序主子式。若 $A$ 的各阶顺序主子式均大于零，则 $A$ 是正定的；若 $A$ 的各阶顺序主子式中，奇数阶主子式为负，偶数阶为正，则 $A$ 为负定的。

六、矩阵分解

维基百科：https://en.wikipedia.org/wiki/LU_decomposition (LU分解)
https://en.wikipedia.org/wiki/QR_decomposition (QR分解)
https://en.wikipedia.org/wiki/Singular_value_decomposition (SVD)

矩阵分解 是将矩阵拆解为数个矩阵的乘积，可分为三角分解、满秩分解、QR分解、Jordan分解和SVD（奇异值）分解等，常见的有三种：1)三角分解 (Lower-upper,LU Decompositon)，2)QR 分解法 (QR Decompositon)，3)奇异值分解法 (Singular Value Decomposition)。

1）LU 分解：将一个矩阵分解成一个上三角矩阵和一个下三角矩阵的乘积。这种分解法得到的上下三角形矩阵并非唯一。在线性代数中已经证明，如果方阵是非奇异的，即的行列式不为0，LU分解总是存在的。LU分解常用来求解线性方程组，求逆矩阵或者计算行列式。
求解过程：首先，对矩阵 $A$ 通过初等行变换将其变为一个上三角矩阵，然后根据初等变化的初等矩阵求得下三角矩阵，即可。

2）QR分解：是将矩阵分解成一个正交矩阵(orthogonal matrix) $Q$ 与一个上三角形矩阵(upper triangular matrix) $R$ 。QR分解经常被用来解线性最小二乘问题。
求解方法：1.Gram–Schmidt正交化法，用正交投影的思想得到一组正交基，易于实现，但容易产生数值误差；2.使用Householder变换，当矩阵 $A$ 是 $m\times n$ ( $m\geq n$ )，是数值稳定QR分解算法中最简单的，但算法计算量大；3.Givens rotations方法在只需要将相对较少的非对角元素归零的情况下非常有用，总的来说是最复杂的。

3）SVD：在线性代数中，奇异值分解(SVD)是一个实矩阵或复矩阵的因子分解。它是一个正半定矩阵(例如，一个具有正特征值的对称矩阵)的特征分解推广到任意 $m\times n$ 矩阵通过极坐标分解的扩展。它在信号处理和统计中有许多有用的应用。SVD是最可靠的分解法，但是它比QR 分解法要花上近十倍的计算时间。使用SVD分解法的用途是解最小平方误差法和数据压缩。

七、参考资料

AlvaIce

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】数学基础——线性代数篇

文章目录一、向量、矩阵和张量一、向量、矩阵和张量维基百科：https://en.wikipedia.org/wiki/Euclidean_vector https://en.wikipedia.org/wiki/Matrix_(mathematics) https://en.wikipedia.org/wiki/Tensor向量：有大小(长度)和方向的物理对象，也称为矢量...
复制链接

扫一扫

专栏目录