机器学习中的数学——范数

最新推荐文章于 2021-11-19 16:49:35 发布

von Neumann

最新推荐文章于 2021-11-19 16:49:35 发布

阅读量1.4w

点赞数 7

分类专栏：机器学习中的数学文章标签：机器学习深度学习线性代数数学范数

本文链接：https://blog.csdn.net/hy592070616/article/details/120497368

版权

机器学习中的数学专栏收录该内容

112 篇文章 887 订阅

订阅专栏

有时我们需要衡量一个向量的大小。在机器学习中，我们经常使用被称为范数的函数衡量向量大小。形式上， $L^p$ 范数定义如下：
$||x||=(\sum_i|x_i|^p)^{\frac{1}{p}}$

其中 $p\in R$ ， $p\geq 1$ 。

范数（包括 $L^p$ 范数）是将向量映射到非负值的函数。直观上来说，向量 $x$ 的范数衡量从原点到点 $x$ 的距离。更严格地说，范数是满足下列性质的任意函数：

$f(x)=0\Rightarrow x=0$
$f(x+y)\leq f(x)+f(y)$
$\forall\alpha\in R, f(\alpha x)=|\alpha|f(x)$

当 $p = 2$ 时， $L^p$ 范数被称为欧几里得范数。它表示从原点出发到向量x确定的点的欧几里得距离。 $L^2$ 范数在机器学习中出现地十分频繁，经常简化表示为 $∣ ∣ x ∣ ∣$ ，略去了下标2。平方 $L^2$ 范数也经常用来衡量向量的大小，可以简单地通过点积 $xx^T$ 计算：
$\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2}$

平方 $L^2$ 范数在数学和计算上都比 $L^2$ 范数本身更方便。例如，平方 $L^2$ 范数对 $x$ 中每个元素的导数只取决于对应的元素，而 $L^2$ 范数对每个元素的导数却和整个向量相关。但是在很多情况下，平方 $L^2$ 范数也可能不受欢迎，因为它在原点附近增长得十分缓慢。在某些机器学习应用中，区分恰好是零的元素和非零但值很小的元素是很重要的。在这些情况下，我们转而使用在各个位置斜率相同，同时保持简单的数学形式的函数： $L^1$ 范数。 $L^1$ 范数可以简化如下：
$||x||_1=\sum_i|x_i|$

当机器学习问题中零和非零元素之间的差异非常重要时，通常会使用 $L^1$ 范数。每当 $x$ 中某个元素从0增加 $\epsilon$ ，对应的 $L^1$ 范数也会增加 $\epsilon$ 。

有时候我们会统计向量中非零元素的个数来衡量向量的大小。有些作者将这种函数称为 $L^0$ 范数，但是这个术语在数学意义上是不对的。向量的非零元素的数目不是范数，因为对向量缩放 $\alpha$ 倍不会改变该向量非零元素的数目。因此， $L^1$ 范数经常作为表示非零元素数目的替代函数。

import tensorflow as tf

x = tf.constant([3.0, 4.0])
L1 = tf.reduce_sum(tf.abs(u))    # L1范数
L2 = tf.norm(x)                  # L2范数

另外一个经常在机器学习中出现的范数是 $L^\infty$ 范数，也被称为最大范数。这个范数表示向量中具有最大幅值的元素的绝对值：
$||x||_\infty=\max_i|x_i|$

有时候我们可能也希望衡量矩阵的大小。在深度学习中，最常见的做法是使用Frobenius范数：
$||x||_F=\sqrt{\sum_{i, j}A_{i, j}^2}$

其类似于向量的 $L^2$ 范数。两个向量的点积可以用范数来表示。具体地：
$x^Ty=||x||_2||y||_2\cos\theta$

其中 $\theta$ 表示 $x$ 和 $y$ 之间的夹角。

von Neumann

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录