1.1 范数，内积

最新推荐文章于 2024-05-26 18:39:46 发布

enthwxq

最新推荐文章于 2024-05-26 18:39:46 发布

阅读量1.2w

点赞数 6

本文链接：https://blog.csdn.net/enthwxq/article/details/84205879

版权

ML 同时被 2 个专栏收录

18 篇文章 1 订阅

订阅专栏

matrix

11 篇文章 1 订阅

订阅专栏

一、内积

在向量空间上定义一种运算，内积，就成了内积空间。定义在n维实向量空间的标准内积为： $\large x^{T}y=<x,y>=y^{T}x$ ,是一个从 $\large R^{n}\rightarrow R^{1}$ 的映射，满足三条性质（共轭对称，第一变元线性性，非负性）。两个向量的内积可以度量它们的夹角： $\large cos\theta=\frac{<x,y>}{\sqrt{<x,x>}\sqrt{<y,y>}}=\frac{x^{T}y}{\sqrt{x^{T}x}\sqrt{y^{T}y}}$ ,注意到，此处并没有定义范数。

以上是向量的内积。

对于矩阵来说，做以推广，定义在mxn实矩阵集合 $\large R^{m\times n}$ 上的标准内积为： $\large X,Y\in R^{m\times n},<X,Y>=tr(X^{T}Y)$ ,

公式太抽象，给个例子：

$\large X=\begin{bmatrix} 1 &2 \\ 3 &4 \\ 5&6 \end{bmatrix} Y=\begin{bmatrix} -1 &-2 \\ -3 &-4 \\ -5&-6 \end{bmatrix}$ , $\large X^{T}Y=\begin{bmatrix} 1 &3 &5 \\2 & 4 & 6\end{bmatrix}\begin{bmatrix} -1 &-2 \\ -3 & -4\\ -5 & -6 \end{bmatrix}$ $\large =\begin{bmatrix} [1&3 &5]\begin{bmatrix} -1\\-3 \\ -5 \end{bmatrix}&[1&3&5]\begin{bmatrix} -2\\-4 \\-6 \end{bmatrix}\\ [2&4&6]\begin{bmatrix} -1\\-3 \\-5 \end{bmatrix} & [2&4&6]\begin{bmatrix} -2\\-4 \\-6 \end{bmatrix} \end{bmatrix}$ $\large =\begin{bmatrix} -35 &-44 \\-44 & -56 \end{bmatrix}$ (对称是巧合而已）， $\large tr(X^{T}Y)=-35-56=-91$ 。

仔细观察矩阵内积的计算，因为最后迹的操作只使用 $\large X^{T}Y$ 这个方阵的对角元素，而通过计算过程中可以发现，第一个对角元素的形成是X的第一列与Y的第一列做内积，第二个元素对角元素是X的第二列与Y的第二列做内积，以此类推，MxN的矩阵内积都是如此，所以引出了一个重要的计算公式： $\large tr(X^{T}Y)=vec(X)^{T}vec(Y)$ ,其中， $\large vec(A)$ 表示将矩阵A按列向量化：

$\large vec(\begin{bmatrix} 1 &2 &3 \\4 & 5 &6 \end{bmatrix})=\begin{bmatrix} 1\\4 \\ 2 \\ 5 \\ 3 \\ 6 \end{bmatrix}$ 。矩阵的内积在推导矩阵微分和求导的关系时有着作用。

二、范数

在向量空间上定义另外一种运算，范数，就成了赋范向量空间。

向量 $\large \vec{x}$ 的范数为一个实函数 $\large p(x):V\rightarrow R^{1}$ 。向量范数也满足三条性质(非负性，齐次性，三角不等式）。非负和三角不等式需要强调一下：

非负性： $\large p(\vec{x})\geq 0 ,and, p(\vec{x})=0 \leftrightharpoons \vec{x}=0$ 。齐次性这里不是重点。

三角不等式： $\large p(\vec{x}+\vec{y}) \leq p(\vec{x})+ p(\vec{y})$ 。

仔细琢磨非负性的后半句话：它阐述的是：向量x的范数为0当且仅当x是零向量。

其中有些函数不满足这一条性质，叫做半范数或伪范数，这种函数只能保证向量x的像为大于等于0的实数，却无法保证当像为0时，原像是0向量。一个例子就是： $\large p(\vec{x})=x1+x2+...+xn$ ，当向量x在此函数作用下，得到的值可能为0，但向量x本身不一定是0向量。

有些函数不满足第三条性质，称为拟范数，这里不提了，详细的内容在张贤达《矩阵分析与应用》第二版，P24有讨论。

范数所衡量的是向量的长度 $\large \left \| \vec{x} \right \|$ ，以此也就能衡量距离 $\large dist(x,y)=||\vec{x}-\vec{y}||$ ，邻域等测度，从而在数学上为向量函数等理论给出严密的理论。

对于向量范数：常用的有一下几种：

(1).L1范数， $\large ||x||_{1}=|x1|+...|x_{n}|$ ,（各元素绝对值之和），

(2).L2范数（Euclid,Euclidean范数，Frobenius范数）， $\large ||x||_{2}=(|x1|^{2}+...|x_{n}|^2)^\frac{1}{2}$

L２范数可以使用一个对称半正定矩阵进行加权:设 $\large A$ 是对称正定矩阵, $\large ||x||_{A}=(x^{T}Ax)^{\frac{1}{2}}=||A^{\frac{1}{2}}x||_{2}$ ,

上述公式中, $\large A^{\frac{1}{2}}=Q\Lambda^{\frac{1}{2}}Q^{T}$ ,因为A是对称正定的,所以有 $\large A=Q\Lambda Q^{T},$ $\large \Lambda$ 是特征值所组成的对角矩阵,对角元素全大于等于0.此时,单位球成了一个椭球.

(3). $\large L_{\infty }$ 范数（无穷范数，极大范数）， $\large ||x||_{\infty} =max{|x1|,|x2|,...|x_{n}|}$

(4),Lp范数（holder范数）， $\large ||x||_{p}=(\sum_{i=1}^{n}|x_{i}|^{p})^{\frac{1}{p}}$ , $\large p\geqslant 1$ 。p必须是大于等于1的，当p大于0且小于1时，就成了拟范数。

(５)．０范数，向量中非零元素的个数。

前三种都是第四种范数的特例。接下来就是单位球的概念：

在n维空间中，范数小于等于1的所有向量集合称为在某范数下的单位球：

这幅图就是二维空间中的单位球的几何表示。

另外有一条关于向量范数的性质是：有限维的向量空间中，任意两种范数等价。

$\large ||\cdot||_{a} ,||\cdot||_{b}$ 等价 $\large \Leftrightarrow$ $\large \exists C_{1},C_{2}> 0,$ 使得 $\large \forall x\in V,||\cdot||_{a}\leq C1||\cdot||_{b}$ 且 $\large ||\cdot||_{b}\leq C2||\cdot||_{a}$

无限维不一定成立。以上都是向量的的范数，接下来是矩阵范数。

矩阵范数分成两类：接下来逐一介绍：

第1类,“元素形式”范数（“entrywise "norm)

就是简单的将MxN的矩阵当成MN维向量一般，直接推广即可。 $\large ||A||_{p}=(\sum_{i=1}^{m}\sum_{j=1}^{n}|a_{ij|^{p}})^{\frac{1}{p}}$ ．

比较典型的是：

（１）L１范数（ｐ＝１）， $\large ||A||_{1}=(\sum_{i=1}^{m}\sum_{j=1}^{n}|a_{ij}|)$ ，就是将所有元素取模（绝对值）相加即可。

（２）Ｆｒｏｂｅｎｉｕｓ范数（ｐ＝２）(并不叫矩阵的2范数)，和向量形式一样。

$\large ||A||^{2}_{F}=tr(A^{T}A)=tr(AA^{T})$ ,与向量的2范数类似,也可以用一个正定矩阵加权.

$\large ||A||^{2}_{\Omega }=tr(A^{T}\Omega A)=tr(A\Omega A^{T})$ ,注意前后两个 $\large \Omega$ 不一样.

（３）最大范数（ｐ＝ $\large \infty$ ），就是A的所有元素绝对值最大的那个元素。

( 4 ) 零范数,矩阵非0元素的个数.

第2类,算子范数/诱导范数.

定义在MxN矩阵空间上的算子范数为:

$\large ||A|| = max(||Ax||_{a}:x\in R^{n},||x||_{b}=1)$ ,直观的理解就是:

对所有在n维空间中起点在原点的"单位"向量进行一个线性变换A后,得到 $\large ||Ax||$ ,它必然是有界的,既然有界,那最大值就是矩阵的范数.因为变换前在n维空间,"单位"向量依赖于向量范数b的定义.对变换后的m维的向量用到了向量范数a,所以也这种范数也叫做"诱导范数".是由向量范数"诱导"出来的.

当变换前后的向量范数都取Euclid范数(2范数),矩阵的这个范数叫做谱范数,有如下表示:

矩阵的诱导2范数就是矩阵的谱范数, $\large ||A||_{2}=||A||_{spec}=\sigma _{max}(X)=(\lambda _{max}(X^{T}X))^{\frac{1}{2}}$ ,这个式子看起来又臭又长,一一解释如下:

对于一个对称方阵来说,它的特征值的集合记作谱: $\large \lambda (X_{n\times n})$ ,方阵可以进行谱分解(特征分解) $\large X_{n \times n}=Q\Lambda Q^{T}$ .

而对于非方阵来说,对它做奇异值分解 $\large X_{m \times n}=U_{m \times m}\Sigma _{m \times n}V_{n \times n}$ ,它的奇异值集合没有专用的名字，只记作 $\large \sigma (X_{m \times n})$ ,

奇异值个数是min{m,n}.因为奇异值分解需要算 $\large X^{T}X$ 和 $\large XX^{T}$ 的特征分解,所以有 $\large \sigma _{max}(X)=(\lambda _{max}(X^{T}X))^{\frac{1}{2}}=(\lambda _{max}(XX^{T}))^{\frac{1}{2}}$ .

继续,当变换前后的向量范数都取1范数时,矩阵的这个范数叫做绝对列和范数,有如下表示:

诱导1范数就是绝对列和范数,记为 $\large \left \| A \right \|_{1}$ .举例:

当 $\large A =$ $\large \begin{bmatrix} 1 & -2 & 3\\-4 & 5& -6\\ 7& -8 & -9\\ -10 & 11 & 12 \end{bmatrix}$ , $\large ||A||_{1}=max(22,26,30)=30$

当变换前后的向量范数都取无穷范数时,矩阵的这个范数叫做绝对行和范数,有如下表示:

诱导无穷范数就是绝对行和范数,记为 $\large ||A||_{\infty }$ ,以上面的4x3矩阵为例,它的绝对行和范数是 $\large max(6 ,15,24,33)=33$ .

到这里,可以提一点的是,没有矩阵的2范数,只有Frobenius范数或者诱导二范数.

最后还有一种矩阵范数,叫做矩阵的核范数(nuclear norm)定义是:

即奇异值之和.

结尾处的知识点是:对偶范数.

对于向量来说,对偶范数定义如下:

(图片来源:凸优化中译版,清华大学出版社),对于向量来说,无穷范数和1范数对偶,2范数和自身对偶.

接着就是矩阵范数的对偶性:

真的是很神奇,谱范数和核范数竟然是对偶的.

本文的参考文献:

1.<<凸优化>>,王书宁等人译,(convex optimization ,Stephen Byod等)

2.<<矩阵分析与应用>> 张贤达著

enthwxq

关注

6
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
1.1 范数，内积

一、内积在向量空间上定义一种运算，内积，就成了内积空间。定义在n维实向量空间的标准内积为：,是一个从的映射，满足三条性质（共轭对称，第一变元线性性，非负性）。两个向量的内积可以度量它们的夹角：,注意到，此处并没有定义范数。以上是向量的内积。对于矩阵来说，做以推广，定义在mxn实矩阵集合上的标准内积为：,公式太抽象，给个例子：,(对称是巧合而已），。仔细观察矩阵内积的计算，因...
复制链接

扫一扫