一、张量基础知识

上官永石

已于 2022-05-26 10:27:16 修改

阅读量2.1w

点赞数 77

分类专栏：张量网络文章标签：张量

于 2020-07-19 17:30:19 首次发布

本文链接：https://blog.csdn.net/qq_36793268/article/details/107375314

版权

张量网络专栏收录该内容

14 篇文章

订阅专栏

1. 张量的定义

首先我们来了解一下什么是张量，张量有四个定义：

张量是多维数组
张量是一种不随坐标系的改变而改变的几何对象
张量是向量和余向量，不会随着坐标系的改变而改变
张量是多重线性映射，即
$T：\underbrace{V^* \times \cdots \times V^*}_m \times \underbrace{V \times \cdots \times V}_n \rightarrow \mathbb{R}，\scriptsize V 是矢量空间，V^*是对应的对偶空间$

这里我们要学习的是张量与深度学习的相关知识，下面的几个定义是物理和工学领域内的张量定义，我们这里只考虑其在数学领域内的定义，也就是第一个：张量是一个多维数组 。

数组是有序的元素序列，我们将 不同维度的数组 定义为不同阶的张量：

将标量 (只有大小没有方向的数) 定义为 0 阶张量 ，如
将 一维数组 定义为 一阶张量 ，如下所示
将多个一维数组的拼接，即矩阵定义为 二阶张量 ：
将多个 矩阵的叠加 定义为 三阶张量 ：
下面我们类比一阶张量，将三阶张量排列为一个数组，数组的元素是三阶张量，如果我们将三阶张量记为

那么多个元素组成的数组就定义为 四阶张量 ，如下所示
同样，将四阶张量拼接，组成三阶张量的矩阵，称为 五阶张量 ，如下所示
对上面的定义进行循环重复，我们就可以定义更高阶的张量了

有了对不同张量的理解后，我们看一下张量具体可以 描述的对象 有哪些。

一阶张量是一个一维数组，即一组数，我们可以将一组数表示为一个矢量，二阶张量是一个矩阵，因此我们可以将张量作为矢量和矩阵概念的推广。
三阶张量
对于 RGB 图片，我们可以理解为由三张分别表示 R,G,B 分量的图片堆叠而成，如下

对于每个分量图片，我们都可以看成一个矩阵，那么一张 RGB 图片就可以用三阶的张量进行表示。
四阶张量
对于多张 RGB 图片，我们可以用四阶张量进行表示，可以看作是三阶张量（单张RGB图像）的数组（多张 RGB 图片）。
五阶张量
视频是由多张图片组成的，因此每个视频可以用一个四阶张量表示，显然，多个视频可以用五阶张量表示。

2. 指标符号

在张量的讨论中，我们对于分量的表示和区分都使用下表字母来表示，下面我们来了解一下用指标符号表示表达式。

2.1 自由指标

对于下面的一组数：
$a_1,a_2,a_3,\cdots,a_n$

我们可以用以下的表达项来简写：
$a_i，i=1,2,\cdots,n$

即用 $\pmb{i}$ (指标) 来表示将该项罗列，我们称这种在取值范围内对表达项进行罗列的指标为 自由指标，自由指标在表达项中只出现一次。

2.2 求和约定与哑指标

对于求和表达式：
$S=\sum_{i=1}^n a_ix_i=a_1x_1+a_2x_2+ \cdots +a_nx_n$

我们约定将其简写为
$S=a_ix_i$

求和约定的表达项 $a_ix_i$ 中 $i$ 出现两次，我们称在一个 表达项 中重复出现两次的指标为 哑指标 ，哑指标表示要对该表达项罗列后再求和 ，只有在表达项中出现两次的才称为哑指标。

现在，我们利用自由指标和哑指标来表示下式：
$A_{11}x_1+A_{12}x_2+A_{13}x_3=b_1$

$A_{21}x_1+A_{22}x_2+A_{23}x_3=b_2$

$A_{31}x_1+A_{32}x_2+A_{33}x_3=b_3$

因为一个自由指标表示将表达式的罗列，我们可以用自由指标将三个式子合并为一个：
$A_{i1}x_1+A_{i2}x_2+A_{i3}x_3=b_i$

之后可以用哑指标将多个表达项合为一项：
$A_{ij}x_j=b_i$

$\rightarrow$ 自由指标
$\rightarrow$ 哑指标

指标可以用任意的字母表示，我们约定

拉丁指标 $i,j,k,\cdots$ 为三维指标，即取值范围为 $1, 2, 3$
希腊指标 $\alpha,\beta,\gamma,\cdots$ 为二维指标，取值范围为 $1, 2$

我们可以用一个表达式中出现多对哑指标来表示 多重求和 ，如
$a_{ij}x_ix_j=\sum_{i=1}^3 \sum_{j=1}^3 a_{ij} x_i x_j$

2.3 $\delta_{ij}$ 符号（Kronecker delta）

$\delta_{ij}$ 是张量中的一个基本符号，也称为单位张量，它的定义为
$\delta_{ij}= \begin{cases} 1 & i=j \\ 0 & i\neq j \end{cases}\ \ \ \ (i,j=1,2,\cdots,n)$

特性：

$\delta_{ij}$ 对于指标 $i$ 和 $j$ 是对称的，即 $\pmb{\delta_{ij}=\delta_{ji}}$ 。
$\delta_{ij}$ 的分量集合是一个单位矩阵。在三维空间中
$\left[\begin{matrix} \delta_{11} & \delta_{12} & \delta_{13} \\ \delta_{21} & \delta_{22} & \delta_{23} \\ \delta_{31} & \delta_{32} & \delta_{33} \\ \end{matrix}\right]= \left[\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \\ \end{matrix}\right]$
$\delta_{ij}$ 具有换标作用。如
$\mathrm{d} s^2= \delta_{ij} \mathrm{d} \textcolor{red}{x_i} \mathrm{d} \textcolor{red}{x_j} = \mathrm{d} \textcolor{red}{x_i} \mathrm{d} \textcolor{red}{x_i} = \mathrm{d} \textcolor{red}{x_j} \mathrm{d} \textcolor{red}{x_j}$

如果符号 $\delta_{ij}$ 的两个指标中，有一个和同项中其它因子的指标相同，则可以把该因子的那个相同指标换成 $\delta_{ij}$ 的另一个指标，而 $\delta_{ij}$ 自动消失。这是因为：
$\begin{aligned} \delta_{ \textcolor{red}{i} j} \mathrm{d} \textcolor{red}{x_i} \mathrm{d} x_j & =\delta_{ \textcolor{red}{1} j} \mathrm{d} \textcolor{red}{x_1} \mathrm{d} x_j + \delta_{ \textcolor{red}{2} j} \mathrm{d} \textcolor{red}{x_2} \mathrm{d} x_j + \delta_{ \textcolor{red}{3} j} \mathrm{d} \textcolor{red}{x_3} \mathrm{d} x_j \end{aligned}$

根据上面 $\delta_{ij}$ 的定义我们可以知道，只有 $i = j$ 时，对应的项不为 $0$ ，因此上式变为
$\begin{aligned} \delta_{ \textcolor{red}{i} j} \mathrm{d} \textcolor{red}{x_i} \mathrm{d} x_j & =\delta_{ \textcolor{red}{1} 1} \mathrm{d} \textcolor{red}{x_1} \mathrm{d} x_1 + \delta_{ \textcolor{red}{2} 2} \mathrm{d} \textcolor{red}{x_2} \mathrm{d} x_2 + \delta_{ \textcolor{red}{3} 3} \mathrm{d} \textcolor{red}{x_3} \mathrm{d} x_3 \\ &=\mathrm{d} \textcolor{red}{x_1}\mathrm{d} x_1 + \mathrm{d} \textcolor{red}{x_2}\mathrm{d} x_2 + \mathrm{d} \textcolor{red}{x_3}\mathrm{d} x_3 \\ &= \mathrm{d} \textcolor{red}{x_i} \mathrm{d} x_i = \mathrm{d} \textcolor{red}{x_j} \mathrm{d} x_j \end{aligned}$

类似的我们可以得到：
$\delta_{ij}a_{jk}=a_{ik}$

$\delta_{ij}a_{kj}=a_{ki}$

$\delta_{ij} \delta_{jk}=\delta_{ik}$

$\delta_{ij} \delta_{jk} \delta_{kl}=\delta_{il}$

应用：

三个相互正交的单位基矢量构成正交标准化基，它们具有如下的性质：
1. 每个基矢的模为 $1$ ，即 $e_i \cdot e_j=1 (i=j)$
2. 不同的矢量相互正交，即 $e_i \cdot e_j =0 (i\neq j)$
上面的两个性质可以用 $\delta_{ij}$ 的形式统一表示，即：
$e_i \cdot e_j=\delta_{ij}$

矢量的点积可以表示为：
$\begin{aligned} \pmb{a \cdot b} & =(a_j e_j)\cdot(b_k e_k)=a_j b_k (e_j e_k) \\ & = a_j b_k \delta_{jk} =a_j b_j =a_k b_k \end{aligned}$

2.4 $e_{rst}$ 符号（排列符号或置换符号）

该符号在笛卡尔坐标系下的定义为
$e_{rst}=\left\{ \begin{array}{rcl} 1 & &\small{当\ r,s,t \ 为正序排列时} &\\ -1 & &\small{当\ r,s,t \ 为逆序排列时} &\\ 0 & &\small{当\ r,s,t \ 中有两个指标相同时}& \end{array} \right.$

或
$e_{rst}=\frac{1}{2}(r-s)(s-t)(t-r)$

其中

$(1, 2, 3)$ 及其轮流换位得到的 $(2, 3, 1)$ 和 $(3, 1, 2)$ 称为正序排列
$(3, 2, 1)$ 及其轮流换位得到的 $(2, 1, 3)$ 和 $(1, 3, 2)$ 称为逆序排列

特性：

$e_{rst}$ 共有 $27$ 个元素，其中三个元素为 $1$ ，三个元素为 $- 1$ ，其余的都是 $0$
对其任意两个指标交换都是反对称的，即
$e_{rst}=-e_{srt}=-e_{rts}=-e_{tsr}$
当三个指标循环移位时， $e_{rst}$ 的值不发生改变
$e_{rst}=e_{str}=e_{trs}$

2.5 张量方程

每一项都是由张量组成的方程称为 张量方程 ，如：
$\sigma_{ij}=C_{ijkl} \ \varepsilon_{kl} \ \ \ \ \Longrightarrow \pmb{\sigma}=\pmb{C:\varepsilon}$

$\sigma_{ij} +f_i=0 \ \ \ \ \ \Longrightarrow \nabla \pmb{\cdot \ \sigma} + \pmb{f} = \pmb{0}$

特性：张量方程具有与坐标选择无关的性质，可用于描述客观物理线性的固有特性和普遍规律。

3. 张量代数

在了解张量的各种代数运算之前，我们先来看一下张量的表示方法。

高阶张量我们使用粗体字母表示， $\pmb{\chi} \in \mathbb{R}^{I_1 \times I_2 \times \cdots \times I_N}$ ，其表示 $N$ 阶的张量， $I_n$ 表示第 $n$ 维的大小。 $N$ 阶张量 $\pmb{\chi}$ 中的元素可以记为 $x_{i_1 i_2 \cdots i_n }$ 。如 $\pmb{\chi} \in \mathbb{R}^{2 \times 3 \times 4}$ ，表示大小为 $\times 3 \times 4$ 的三维数组， $x_{214 }$ 表示第二行、第一列、第四层的元素。

3.1 几种矩阵的特殊乘法

Kronecker 乘积（张量积）
对于两个矩阵 $\mathrm{A} \in \mathbb{R}^{I \times J}$ 和 $\mathrm{B}\in\mathbb{R}^{K\times L}$ ，其 Kronecker 积被定义为如下的 $IK \times (JL)$ 的矩阵，即将 $A$ 的每个元素乘以矩阵 $B$ ，我们用符号 $\otimes$ 来表示 Kronecker 乘积：
$\begin{aligned} \mathrm{A} \otimes \mathrm{B} &= \begin{bmatrix} a_{11}\mathrm{B} & a_{12}\mathrm{B} & \dots & a_{1J}\mathrm{B} \\ a_{21}\mathrm{B} & a_{22}\mathrm{B} & \dots & a_{2J}\mathrm{B} \\ \vdots & \vdots & \ddots & \vdots \\ a_{l1}\mathrm{B} & a_{12}\mathrm{B} & \dots & a{IJ}\mathrm{B} \end{bmatrix}\end{aligned}$
Hadamard 乘积
Hadamard 是对 相同大小的矩阵 进行的，它让相同位置的元素相乘，对矩阵 $\in \mathbb{R}^{I \times J}$ ，其 Hadamard 乘积记作 $A * B$ ：
$\mathrm{A} * \mathrm{B} = \begin{bmatrix} a_{11}b_{11} & a_{12}b_{12} & \dots & a_{1J}b_{1J}\\ a_{21}b_{21} & a_{22}b_{22} & \dots & a_{2J}b_{2J}\\ \vdots & \vdots & \ddots & \vdots \\ a_{I1}b_{I1} & a_{I2}b_{I2} & \dots & a_{IJ}b_{IJ} \end{bmatrix}$
Khatri - Rao 乘积
Khatri - Rao 乘积是列对列的乘积，相乘的两个矩阵必须有相同的列数，矩阵 $\mathrm{A}\in\mathbb{R}^{I \times K}$ 和 $\mathrm{B}\in\mathbb{R}^{L\times K}$ 的 Khatri - Rao 乘积记为 $\mathrm{A} \odot \mathrm{B}$ ，即将矩阵 $A$ 的每一列和矩阵 $B$ 的对应列进行 Kronecker 积：
$\mathrm{A}\odot \mathrm{B} = \begin{bmatrix} a_1 \otimes b_1 & a_2 \otimes b_2 & \dots & a_K \otimes b_K \end{bmatrix}$

如，对矩阵 $A=\left[ \begin{matrix} 1 & 2 \\ 3 & 4 \end{matrix} \right]=(\boldsymbol{a_1},\boldsymbol{b_1} )$ 和 $B=\left[ \begin{matrix} 5 & 6 \\ 7 & 8 \\ 9 & 10 \end{matrix} \right]=(\boldsymbol{a_2},\boldsymbol{b_3} )$ 的 Khatri - Rao 乘积为
$\odot B=(\boldsymbol{a_1}\otimes \boldsymbol{a_2},\boldsymbol{b_1}\otimes \boldsymbol{b_2})= \left[ \begin{matrix} \left[ \begin{matrix} 1 \\ 3 \end{matrix} \right] \otimes \left[ \begin{matrix} 5 \\ 7 \\ 9 \end{matrix} \right] & \left[ \begin{matrix} 2 \\ 4 \end{matrix} \right] \otimes \left[ \begin{matrix} 6 \\ 8 \\ 10 \end{matrix} \right] \end{matrix}\right]$

3.2 特殊张量，主方向与主分量

常用特殊张量
1. 零张量
  若张量 $T = 0$ ，则
  $T_{ij}=0，T_{ij}^{'}=0$
2. 单位张量
  笛卡尔坐标系中分量为 $\delta_{ij}$ 的二阶张量 $I$ ，即：
  $I=\delta_{ij}e_i e_j=e_1 e_1 + e_2 e_2 +e_3 e_3$
  
  $I_{ij}=\delta_{ij} \ \ \ \small{且}\ \ \ \ I_{ij}^{'}=\delta_{ij}$
  
  单位张量和任意张量的点积就等于该张量本身。
3. 转置张量
  对于二阶张量 $T=T_{ij}e_i e_j$ ，由对换分量指标而基矢量顺序保持不变所得到的新张量
  $T^T=T_{ji}e_i e_j=T_{ij} e_j e_i$
  
  称为张量 $T$ 的转置张量。
4. 对称张量
  满足 $T=T^T$ ，即 $T_{ij}= T_{ji}$ 的张量。
5. 反对称张量
  满足 $T=-T^T$ ，即 $T_{ij}= -T_{ji}$ 的张量。
6. 加法分解
  任意二阶张量 $T$ 均可以分解为对称张量 $S$ 和反对称张量 $A$ 之和：
  $T = S + A$
  
  其中 $S=\frac{1}{2}(T+T^T)$ ， $A=\frac{1}{2}(T-T^T)$
7. 置换张量
  笛卡尔系中以置换符号 $e_{rst}$ 为分量的三阶张量为置换张量
  $\pmb{e}=e_{rst} \pmb{e_r} \pmb{e_s} \pmb{e_t}$
主方向与主分量
二阶张量可以定义为一种由矢量 $\pmb{a}$ ， $\pmb{b}$ 的线性变换，即
$\pmb{T \cdot a = b} \ \ ; \ \ T_{ij}a_j=b_i$

一般来说，矢量 $\pmb{a}$ 与 $\pmb{b}$ 并不同向。对于给定的任意二阶张量 $\pmb{T}$ 能否找到某个矢量 $\pmb{v}$ ，它在线性变换后能保持方向不变，即:
$\pmb{T \cdot v }= \lambda \pmb{v} \ \ \ ; \ \ \ T_{ij} v_{j} =\lambda v_i$

根据上式，类比矩阵的特征向量的求法可以得到：
$(T_{ij}-\lambda \delta_{ij})v_j=0 \ \ \ (i=1,2,3)$

其中 $\lambda$ 是标量， $\delta_{ij}$ 是单位矩阵，该问题就转换为求 $v_j$ 的线性齐次代数方程组，其存在非零解的充分必要条件是系数行列式为零，即：
$\begin{vmatrix} T_{11}-\lambda & T_{12} & T_{13} \\ T_{21}& T_{22}-\lambda & T_{33} \\ T_{31}& T_{32} & T_{33}-\lambda \end{vmatrix}=0$

将左边行列式展开可得：
$\lambda ^3 - I_1 \lambda ^2 +I_2 \lambda - I_3 = 0$

这是关于 $\lambda$ 的特征方程，我们可以求出特征方程的三个解，是三个特征值，称为张量 $T$ 的 主分量 。当 $T$ 是是对称张量时，存在三个实特征值 $\lambda_{(k)}$ ，根据每个特征值，我们带入上面的等式，可以求出每个特征值对应的特征向量 $v_{j(k)}$ ，通过该方法求得的三个单位矢量 $\pmb{v}_{(k)}=v_{j(k)}\pmb{e}_j$ 称为 张量 $T$ 的主方向 。

沿主方向 $\pmb{v}_{(1)}，\pmb{v}_{(2)}，\pmb{v}_{(3)}$ 的正交坐标系称为张量 $T$ 的 主坐标系 。在主坐标系中，有
$T=\lambda_{(1)}\pmb{e}_{(1)}\pmb{e}_{(1)}+ \lambda_{(2)}\pmb{e}_{(2)}\pmb{e}_{(2)}+ \lambda_{(3)}\pmb{e}_{(3)}\pmb{e}_{(3)}$

4. 张量展开

首先我们对于一个如下的三阶张量，来了解几个概念。在这里插入图片描述

纤维(fiber)

纤维是从张量中抽取向量的操作。对于上面的张量来说，如果固定其中的两个维度，只保留一个维度可以变换，可以得到一个向量。

如果保留第 $k$ 个下标度可以改变，则我们称为张量的 mode-k fiber ，我们记为 $\pmb{\chi}_{i_1\cdots k-1\ \pmb{:} \ k+1\cdots i_n}$ ，也就是将第 k 维的下标用 $\pmb{:}$ 代替，表示其可以变化。对于三阶张量，其各维的 mode fiber 如下所示：
切片(slice)

切片是从张量中抽取矩阵的操作。和纤维类似，我们可以保持两个下标可以改变，其余维度的下标固定，就可以得到切片，对于三阶张量的切片，我们分别记为 $\pmb{X_{i::}}、\pmb{X_{:j:}}、\pmb{X_{::k}}$ ，分别表示水平切片、侧面切片和正面切片，如下所示：

4.1 张量展开（张量的矩阵化）

将 $N$ 阶张量 $\pmb{\chi}$ 沿 mode - n 展开成一个矩阵 $\pmb{X}_{(n)}$ 的过程，也就是张量的矩阵化，它可以将高维的张量拆解为 2 阶的矩阵，基本操作 为：把张量 $\pmb{\chi}$ 的每一根 mode - n fiber 按顺序插入矩阵的列中。

对于一个三维的张量如下：
在这里插入图片描述
我们可以用数据表示为：
$\pmb{\tau}=\begin{matrix} & & t_5 & t_6 \\ & & t_7 & t_8 \\ t_1 & t_2 & & \\ t_3 & t_4 & & \end{matrix}$

如果我们对张量的每个维度进行索引，如下图所示：
在这里插入图片描述

那么我们可以用索引表示每个元素，如下：
$\pmb{\tau}=\begin{matrix} & & t_{112} & t_{122} \\ & & t_{212} & t_{222} \\ t_{111} & t_{121} & & \\ t_{211} & t_{221} & & \end{matrix}$

对于张量
$\pmb{\tau}=\begin{matrix} & & 5 & 6 \\ & & 7 & 8 \\ 1 & 2& & \\ 3 & 4 & & \end{matrix}$

其 mode - 1 矩阵 $\pmb{\chi}_{(1)}$ 可以表示如下：

在这里插入图片描述
mode - 2 矩阵 $\pmb{\chi}_{(2)}$ 可以表示如下：

mode - 3 矩阵 $\pmb{\chi}_{(3)}$ 表示为：

在这里插入图片描述
注意：同一个 mode 下的矩阵化时，如果选择对 mode-n fiber 按不同的排列顺序组成矩阵，可能会得到不同的结果，但是只要这些排序方法时前后统一的，一般来说不会对计算带来影响。

例：假设某张量 $\mathcal{X} \in \mathbb{R}^{3 \times 4 \times 2}$ 的正面切片如下：

$X_{::1} = \begin{bmatrix} 1 & 4 & 7 & 10 \\ 2 & 5 & 8 & 11 \\ 3 & 6 & 9 & 12 \end{bmatrix} \text{，}\quad X_{::2} = \begin{bmatrix} 13 & 16 & 19 & 22 \\ 14 & 17 & 20 & 23 \\ 15 & 18 & 21 & 24 \end{bmatrix}$

根据上面的矩阵化，我们可以得到三个 mode 下的矩阵化结果如下：
$X_{(1)} = \begin{bmatrix} 1 & 4 & 7 & 10 & 13 & 16 & 19 & 22 \\ 2 & 5 & 8 & 11 & 14 & 17 & 20 & 23 \\ 3 & 6 & 9 & 12 & 15 & 18 & 21 & 24 \end{bmatrix}$

$X_{(2)} = \begin{bmatrix} 1 & 2 & 3 & 13 & 14 & 15 \\ 4 & 5 & 6 & 16 & 17 & 18 \\ 7 &8 & 9 & 19 & 20 & 21 \\ 10 & 11 & 12 & 22 & 23 & 24 \end{bmatrix}$

$X_{(3)} = \begin{bmatrix} 1 & 2 & 3 & 4 & 5 & \dots & 9 & 10 & 11 & 12 \\ 13 & 14 & 15 & 16 & 17 & \dots & 21 & 22 & 23 & 24 \end{bmatrix}$

4.2 张量乘以矩阵

张量和矩阵相乘就是先将张量矩阵化，然后用矩阵乘以矩阵化的张量，就转变为了矩阵和矩阵的乘积。两个矩阵相乘得到一个矩阵，再按照原来的方式将矩阵还原为张量就得到了结果张量。

根据不同 mode 的矩阵化方式，我们可以计算张量在不同 mode 下和矩阵的乘积。

在这里插入图片描述
我们直接来看例子，如果我们有一个张量
$\pmb{\mathcal{T}}=\begin{matrix} & & 5 & 6 \\ & & 7 & 8 \\ 1 & 2& & \\ 3 & 4 & & \end{matrix}$

和一个矩阵
$A=\begin{bmatrix} a & b \\ c & d \end{bmatrix}$

先对张量进行 mode - 1 矩阵化，得到如下结果：
$\pmb{\mathcal{T}}_{(1)}=\begin{bmatrix} 1 & 2 & 5 & 6 \\ 3 & 4 & 7 & 8 \end{bmatrix}$

则张量和矩阵相乘可以表示为：
$\begin{aligned} \mathcal{P}=\mathcal{T} \times_1 A \rightarrow \mathcal{P}_{(1)}=A \mathcal{T}_{(1)}& = \begin{bmatrix} a & b \\ c & d \end{bmatrix} \begin{bmatrix} 1 & 2 & 5 & 6 \\ 3 & 4 & 7 & 8 \end{bmatrix} \\ & =\begin{bmatrix} a+3b & 2a+4b & 5a+7b & 6a+8b \\ c+3d & 2c+4d & 5c+7d & 6c+8d \end{bmatrix} \end{aligned}$