声明:该文章翻译自MIT出版的《DEEP LEARNING》,博主会定期更新文章内容。由于博主能力有限,中间有过错之处希望大家给予批评指正,一起学习交流。
有时候,我们需要度量向量的尺度。在机器学习中,我们通常用 Lp 范数来度量向量的尺度:
范数,包括 Lp 范数,是将向量映射到非负值的函数,并且满足下面的性质,使得他们类似于点之间的距离:
- f(x)=0⇒x=0
- f(x+y)≤f(x)+f(y)(三角不等式)
- ∀α∈R,f(αx)=|α|f(x)
L2 范数是欧几里得范数。它仅仅是原点到点 x 的欧几里德距离。它可能是机器学习中最常用的范数。并且也常用 x 的平方来度量向量的尺度,通过 xTx 就能计算出来。
L2 范数的平方在数学上和计算上都比 L2 范数有效。例如, L2 范数的平方对 x 中每个元素的导数只依赖于 x 的每个元素。而 L2 范数的导数依赖于整个向量。在许多情境中, L2 范数的平方可能是不方便的,因为在原点附近增长非常慢。在一些机器学习应用中,区别零元素和极小元素是非常重要的,对于这些情况,我们转向在所有位置增长速率一样的函数,但是依然保持数学的简明特性: L1 范数。 L1 范数可以简化为:
有时,我们通过计算向量中非零元素的数目来度量它的尺度(当我们用
另一个在机器学习中常见的范数是 l∞ 范数,叫做最大范数。这个范数简化如下:
有时,我们可能希望度量矩阵的尺度。在深度学习的情景中,最常用的方式是Frobenius范数:
两个向量的点乘可以重写成范数的形式。特别地,