标量
标量由只有一个元素的张量表示。 在下面的代码中,我们实例化两个标量,并执行一些熟悉的算术运算,即加法、乘法、除法和指数:
向量
我们可以使用下标来引用向量的任一元素:
向量只是一个数字数组,就像每个数组都有一个长度一样,每个向量也是如此。
向量的长度通常称为向量的维度(dimension)。
与普通的Python数组一样,我们可以通过调用Python的内置len()函数来访问张量的长度:
当用张量表示一个向量(只有一个轴)时,我们也可以通过.shape属性访问向量的长度。 形状(shape)是一个元素组,列出了张量沿每个轴的长度(维数)。 对于只有一个轴的张量,形状只有一个元素:
请注意,维度(dimension)这个词在不同上下文时往往会有不同的含义,这经常会使人感到困惑。 为了清楚起见,我们在此明确一下: 向量或轴的维度被用来表示向量或轴的长度,即向量或轴的元素数量。 然而,张量的维度用来表示张量具有的轴数。 在这个意义上,张量的某个轴的维数就是这个轴的长度。
矩阵
正如向量将标量从零阶推广到一阶,矩阵将向量从一阶推广到二阶。 矩阵,我们通常用粗体、大写字母来表示 (例如,X、Y和Z), 在代码中表示为具有两个轴的张量。当调用函数来实例化张量时, 我们可以通过指定两个分量和来创建一个形状为mxn的矩阵:
代码中访问矩阵的转置:
特殊的:
张量
当我们开始处理图像时,张量将变得更加重要,图像以维数组形式出现, 其中3个轴对应于高度、宽度,以及一个通道(channel)轴, 用于表示颜色通道(红色、绿色和蓝色)。 现在,我们先将高阶张量暂放一边,而是专注学习其基础知识:
张量算法的基本性质
标量、向量、矩阵和任意数量轴的张量(本小节中的“张量”指代数对象)有一些实用的属性。 例如,你可能已经从按元素操作的定义中注意到,任何按元素的一元运算都不会改变其操作数的形状。 同样,给定具有相同形状的任意两个张量,任何按元素二元运算的结果都将是相同形状的张量。 例如,将两个相同形状的矩阵相加,会在这两个矩阵上执行元素加法:
具体而言,两个矩阵的按元素乘法称为Hadamard积(Hadamard product):
将张量乘以或加上一个标量不会改变张量的形状,其中张量的每个元素都将与标量相加或相乘:
降维
我们可以对任意张量进行的一个有用的操作是计算其元素的和:
我们可以表示任意形状张量的元素和我们可以表示任意形状张量的元素和:
默认情况下,调用求和函数会沿所有的轴降低张量的维度,使它变为一个标量。 我们还可以指定张量沿哪一个轴来通过求和降低维度。 以矩阵为例,为了通过求和所有行的元素来降维(轴0),我们可以在调用函数时指定axis=0。 由于输入矩阵沿0轴降维以生成输出向量,因此输入轴0的维数在输出形状中消失:
axis=0,就是把每一列的行元素相加。
指定axis=1将通过汇总所有列的元素降维(轴1)。因此,输入轴1的维数在输出形状中消失:
沿着行和列对矩阵求和,等价于对矩阵的所有元素进行求和:
一个与求和相关的量是平均值(mean或average)。 我们通过将总和除以元素总数来计算平均值。 在代码中,我们可以调用函数来计算任意形状张量的平均值:
同样,计算平均值的函数也可以沿指定轴降低张量的维度:
非降维求和
有时在调用函数来计算总和或均值时保持轴数不变会很有用:
由于sum_A在对每行进行求和后仍保持两个轴,我们可以通过广播将A除以sum_A:
如果我们想沿某个轴计算A元素的累积总和, 比如axis=0(按行计算),我们可以调用cumsum函数。 此函数不会沿任何轴降低输入张量的维度:
点积(Dot Product)
我们已经学习了按元素操作、求和及平均值。 另一个最基本的操作之一是点积,它们的点积(dot product)XTY:
我们可以通过执行按元素乘法,然后进行求和来表示两个向量的点积:
矩阵-向量积
矩阵-矩阵乘法
矩阵-矩阵乘法可以简单地称为矩阵乘法,不应与”Hadamard积”混淆。
范数
||x||1 = \sum{i=1}^N|x_i|,即向量元素绝对值之和,matlab调用函数norm(x, 1) 。
\infty-范数:||\textbf{x}||\infty = \max{i}|x_i|,即所有向量元素绝对值中的最大值,matlab调用函数norm(x, inf)。
p-范数:||\textbf{x}||p = (\sum{i=1}N|x_i|p)^{\frac{1}{p}}
,即向量元素绝对值的p次方和的1/p次幂,matlab调用函数norm(x, p)。
||\textbf{x}||2 =\sqrt{\sum{i=1}Nx_i2},Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方,matlab调用函数norm(x, 2)。在代码中,我们可以按如下方式计算向量的L2范数:
与L2范数相比,L1范数受异常值的影响较小。 为了计算范数,我们将绝对值函数和按元素求和组合起来:
Frobenius范数满足向量范数的所有性质,它就像是矩阵形向量的L2范数。 调用以下函数将计算矩阵的Frobenius范数:
范数和目标
在深度学习中,我们经常试图解决优化问题: 最大化分配给观测数据的概率; 最小化预测和真实观测之间的距离。 用向量表示物品(如单词、产品或新闻文章),以便最小化相似项目之间的距离,最大化不同项目之间的距离。 目标,或许是深度学习算法最重要的组成部分(除了数据),通常被表达为范数。