1.1 范数,内积

11 篇文章 1 订阅

一、内积

在向量空间上定义一种运算,内积,就成了内积空间。定义在n维实向量空间的标准内积为:\large x^{T}y=<x,y>=y^{T}x,是一个从\large R^{n}\rightarrow R^{1}的映射,满足三条性质(共轭对称,第一变元线性性,非负性)。两个向量的内积可以度量它们的夹角:\large cos\theta=\frac{<x,y>}{\sqrt{<x,x>}\sqrt{<y,y>}}=\frac{x^{T}y}{\sqrt{x^{T}x}\sqrt{y^{T}y}},注意到,此处并没有定义范数。

以上是向量的内积。

对于矩阵来说,做以推广,定义在mxn实矩阵集合\large R^{m\times n}上的标准内积为:\large X,Y\in R^{m\times n},<X,Y>=tr(X^{T}Y),

公式太抽象,给个例子:

\large X=\begin{bmatrix} 1 &2 \\ 3 &4 \\ 5&6 \end{bmatrix} Y=\begin{bmatrix} -1 &-2 \\ -3 &-4 \\ -5&-6 \end{bmatrix},\large X^{T}Y=\begin{bmatrix} 1 &3 &5 \\2 & 4 & 6\end{bmatrix}\begin{bmatrix} -1 &-2 \\ -3 & -4\\ -5 & -6 \end{bmatrix}\large =\begin{bmatrix} [1&3 &5]\begin{bmatrix} -1\\-3 \\ -5 \end{bmatrix}&[1&3&5]\begin{bmatrix} -2\\-4 \\-6 \end{bmatrix}\\ [2&4&6]\begin{bmatrix} -1\\-3 \\-5 \end{bmatrix} & [2&4&6]\begin{bmatrix} -2\\-4 \\-6 \end{bmatrix} \end{bmatrix}\large =\begin{bmatrix} -35 &-44 \\-44 & -56 \end{bmatrix}(对称是巧合而已),\large tr(X^{T}Y)=-35-56=-91

仔细观察矩阵内积的计算,因为最后迹的操作只使用\large X^{T}Y这个方阵的对角元素,而通过计算过程中可以发现,第一个对角元素的形成是X的第一列与Y的第一列做内积,第二个元素对角元素是X的第二列与Y的第二列做内积,以此类推,MxN的矩阵内积都是如此,所以引出了一个重要的计算公式:\large tr(X^{T}Y)=vec(X)^{T}vec(Y),其中,\large vec(A)表示将矩阵A按列向量化:

\large vec(\begin{bmatrix} 1 &2 &3 \\4 & 5 &6 \end{bmatrix})=\begin{bmatrix} 1\\4 \\ 2 \\ 5 \\ 3 \\ 6 \end{bmatrix}。矩阵的内积在推导矩阵微分和求导的关系时有着作用。

二、范数

在向量空间上定义另外一种运算,范数,就成了赋范向量空间。

向量\large \vec{x}的范数为一个实函数\large p(x):V\rightarrow R^{1}。向量范数也满足三条性质(非负性,齐次性,三角不等式)。非负和三角不等式需要强调一下:

非负性:\large p(\vec{x})\geq 0 ,and, p(\vec{x})=0 \leftrightharpoons \vec{x}=0。齐次性这里不是重点。

三角不等式:\large p(\vec{x}+\vec{y}) \leq p(\vec{x})+ p(\vec{y})

仔细琢磨非负性的后半句话:它阐述的是:向量x的范数为0当且仅当x是零向量。

其中有些函数不满足这一条性质,叫做半范数或伪范数,这种函数只能保证向量x的像为大于等于0的实数,却无法保证当像为0时,原像是0向量。一个例子就是:\large p(\vec{x})=x1+x2+...+xn,当向量x在此函数作用下,得到的值可能为0,但向量x本身不一定是0向量。

有些函数不满足第三条性质,称为拟范数,这里不提了,详细的内容在张贤达《矩阵分析与应用》第二版,P24有讨论。

范数所衡量的是向量的长度\large \left \| \vec{x} \right \|,以此也就能衡量距离\large dist(x,y)=||\vec{x}-\vec{y}||,邻域等测度,从而在数学上为向量函数等理论给出严密的理论。

对于向量范数:常用的有一下几种:

(1).L1范数,\large ||x||_{1}=|x1|+...|x_{n}|,(各元素绝对值之和),

(2).L2范数(Euclid,Euclidean范数,Frobenius范数),\large ||x||_{2}=(|x1|^{2}+...|x_{n}|^2)^\frac{1}{2}

L2范数可以使用一个对称半正定矩阵进行加权:设\large A是对称正定矩阵,\large ||x||_{A}=(x^{T}Ax)^{\frac{1}{2}}=||A^{\frac{1}{2}}x||_{2},

上述公式中,\large A^{\frac{1}{2}}=Q\Lambda^{\frac{1}{2}}Q^{T},因为A是对称正定的,所以有\large A=Q\Lambda Q^{T},\large \Lambda是特征值所组成的对角矩阵,对角元素全大于等于0.此时,单位球成了一个椭球.

(3).\large L_{\infty }范数(无穷范数,极大范数),\large ||x||_{\infty} =max{|x1|,|x2|,...|x_{n}|}

(4),Lp范数(holder范数),\large ||x||_{p}=(\sum_{i=1}^{n}|x_{i}|^{p})^{\frac{1}{p}},\large p\geqslant 1。p必须是大于等于1的,当p大于0且小于1时,就成了拟范数。

(5).0范数,向量中非零元素的个数。

前三种都是第四种范数的特例。接下来就是单位球的概念:

在n维空间中,范数小于等于1的所有向量集合称为在某范数下的单位球:

这幅图就是二维空间中的单位球的几何表示。

另外有一条关于向量范数的性质是:有限维的向量空间中,任意两种范数等价。

\large ||\cdot||_{a} ,||\cdot||_{b}等价\large \Leftrightarrow\large \exists C_{1},C_{2}> 0,使得\large \forall x\in V,||\cdot||_{a}\leq C1||\cdot||_{b}\large ||\cdot||_{b}\leq C2||\cdot||_{a}

无限维不一定成立。以上都是向量的的范数,接下来是矩阵范数。

矩阵范数分成两类:接下来逐一介绍:

第1类,“元素形式”范数(“entrywise "norm)

就是简单的将MxN的矩阵当成MN维向量一般,直接推广即可。\large ||A||_{p}=(\sum_{i=1}^{m}\sum_{j=1}^{n}|a_{ij|^{p}})^{\frac{1}{p}}

比较典型的是:

(1)L1范数(p=1),\large ||A||_{1}=(\sum_{i=1}^{m}\sum_{j=1}^{n}|a_{ij}|),就是将所有元素取模(绝对值)相加即可。

(2)Frobenius范数(p=2)(并不叫矩阵的2范数),和向量形式一样。

\large ||A||^{2}_{F}=tr(A^{T}A)=tr(AA^{T}),与向量的2范数类似,也可以用一个正定矩阵加权.

\large ||A||^{2}_{\Omega }=tr(A^{T}\Omega A)=tr(A\Omega A^{T}),注意前后两个\large \Omega不一样.

(3)最大范数(p=\large \infty),就是A的所有元素绝对值最大的那个元素。

  ( 4 ) 零范数,矩阵非0元素的个数.

第2类,算子范数/诱导范数.

定义在MxN矩阵空间上的算子范数为:

\large ||A|| = max(||Ax||_{a}:x\in R^{n},||x||_{b}=1),直观的理解就是:

对所有在n维空间中起点在原点的"单位"向量进行一个线性变换A后,得到\large ||Ax||,它必然是有界的,既然有界,那最大值就是矩阵的范数.因为变换前在n维空间,"单位"向量依赖于向量范数b的定义.对变换后的m维的向量用到了向量范数a,所以也这种范数也叫做"诱导范数".是由向量范数"诱导"出来的.

当变换前后的向量范数都取Euclid范数(2范数),矩阵的这个范数叫做谱范数,有如下表示:

矩阵的诱导2范数就是矩阵的谱范数,\large ||A||_{2}=||A||_{spec}=\sigma _{max}(X)=(\lambda _{max}(X^{T}X))^{\frac{1}{2}},这个式子看起来又臭又长,一一解释如下:

对于一个对称方阵来说,它的特征值的集合记作谱:\large \lambda (X_{n\times n}),方阵可以进行谱分解(特征分解)\large X_{n \times n}=Q\Lambda Q^{T}.

而对于非方阵来说,对它做奇异值分解\large X_{m \times n}=U_{m \times m}\Sigma _{m \times n}V_{n \times n},它的奇异值集合没有专用的名字,只记作\large \sigma (X_{m \times n}),

奇异值个数是min{m,n}.因为奇异值分解需要算\large X^{T}X\large XX^{T}的特征分解,所以有\large \sigma _{max}(X)=(\lambda _{max}(X^{T}X))^{\frac{1}{2}}=(\lambda _{max}(XX^{T}))^{\frac{1}{2}}.

继续,当变换前后的向量范数都取1范数时,矩阵的这个范数叫做绝对列和范数,有如下表示:

诱导1范数就是绝对列和范数,记为\large \left \| A \right \|_{1}.举例:

\large A =\large \begin{bmatrix} 1 & -2 & 3\\-4 & 5& -6\\ 7& -8 & -9\\ -10 & 11 & 12 \end{bmatrix},\large ||A||_{1}=max(22,26,30)=30

当变换前后的向量范数都取无穷范数时,矩阵的这个范数叫做绝对行和范数,有如下表示:

诱导无穷范数就是绝对行和范数,记为\large ||A||_{\infty },以上面的4x3矩阵为例,它的绝对行和范数是\large max(6 ,15,24,33)=33.

到这里,可以提一点的是,没有矩阵的2范数,只有Frobenius范数或者诱导二范数.

最后还有一种矩阵范数,叫做矩阵的核范数(nuclear norm)定义是:

即奇异值之和.

结尾处的知识点是:对偶范数.

对于向量来说,对偶范数定义如下:

(图片来源:凸优化中译版,清华大学出版社),对于向量来说,无穷范数和1范数对偶,2范数和自身对偶.

接着就是矩阵范数的对偶性:

真的是很神奇,谱范数和核范数竟然是对偶的.

 

本文的参考文献:

1.<<凸优化>>,王书宁等人译,(convex optimization ,Stephen Byod等)

2.<<矩阵分析与应用>> 张贤达著

 

 

 

 

  • 6
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值