First Order Methods in Optimization Ch1. Vector Spaces

最新推荐文章于 2020-02-22 10:44:16 发布

Learner Hu

最新推荐文章于 2020-02-22 10:44:16 发布

阅读量2.4k

点赞数 13

分类专栏： FOM in Optimization

原文链接：https://download.csdn.net/download/m0_37854871/11562555

版权

FOM in Optimization 专栏收录该内容

10 篇文章 69 订阅

订阅专栏

第一章向量空间

文章目录

第一章向量空间

本章将回顾本书会用到的向量空间的方方面面. 由于篇幅限制, 这里仅作简短介绍. 建议想要获取对向量空间更加全面和详细阐释的读者参阅高等线性代数和泛函分析书籍.

1. 定义

实数域 $\mathbb{R}$ 上的向量空间 (vector space) $\mathbb{E}$ 为满足如下条件的非空集合.

$\mathbb{E}$ 上有代数运算“ $+$ ”. 关于“ $+$ ”, $\mathbb{E}$ 构成Abel群. 也即对 $\forall \mathbf{x},\mathbf{y}\in\mathbb{E}$ , $\mathbf{x}+\mathbf{y}\in\mathbb{R}$ , 称作 $\mathbf{x}$ 和 $\mathbf{y}$ 的和, 同时有
a. (交换律) $\mathbf{x}+\mathbf{y}=\mathbf{y}+\mathbf{x},\quad\forall \mathbf{x},\mathbf{y}\in\mathbb{E}$ ;
b. (结合律) $\mathbf{x}+(\mathbf{y}+\mathbf{z})=(\mathbf{x}+\mathbf{y})+\mathbf{z},\quad\forall \mathbf{x},\mathbf{y},\mathbf{z}\in\mathbb{E}$ ;
c. (零元的存在性) 存在(唯一)向量 $\mathbf{0}$ 使得 $\mathbf{x}+\mathbf{0}=\mathbf{x},\forall \mathbf{x}\in\mathbb{E}$ . 我们称该向量 $\mathbf{0}$ 为零向量;
d. (负元的存在性) 对 $\forall \mathbf{x}\in\mathbb{E}$ , 存在(唯一)向量 $-\mathbf{x}\in\mathbb{E}$ , 使得 $\mathbf{x}+(-\mathbf{x})=\mathbf{0}$ .
定义数乘: 对 $\forall\alpha\in\mathbb{R},\mathbf{x}\in\mathbb{E}$ , 有 $\alpha \mathbf{x}\in\mathbb{E}$ , 且满足以下性质:
a. (数乘结合律) $\alpha(\beta \mathbf{x})=(\alpha\beta)\mathbf{x},\quad\forall\alpha,\beta\in\mathbb{R},\mathbf{x}\in\mathbb{E}$ ;
b. $1\mathbf{x}=\mathbf{x},\quad\forall \mathbf{x}\in\mathbb{E}$ .¹
关于加法和数乘的分配律:
a. $\alpha(\mathbf{x}+\mathbf{y})=\alpha \mathbf{x}+\alpha \mathbf{y},\quad\forall\alpha\in\mathbb{R},\mathbf{x},\mathbf{y}\in\mathbb{E}$ ;
b. $(\alpha+\beta)\mathbf{x}=\alpha \mathbf{x}+\beta \mathbf{x},\quad\forall\alpha,\beta\in\mathbb{R},\mathbf{x}\in\mathbb{R}$ .

2. 维数

我们称向量空间 $\mathbb{E}$ 中的向量集 $\{\mathbf{v}_1,\mathbf{v}_2,\ldots,\mathbf{v}_n\}$ 线性无关 (linearly independent), 若线性系统 $\sum\limits_{i=1}^n\alpha_i\mathbf{v}_i=\mathbf{0}$ 成立当且仅当 $\alpha_1=\alpha_2=\cdots=\alpha_n=0$ ;
我们称向量集 $\{\mathbf{v}_1,\mathbf{v}_2,\ldots,\mathbf{v}_n\}$ 张成 (span) $\mathbb{E}$ , 若对 $\forall \mathbf{x}\in\mathbb{E}$ , 存在 $\beta_1,\beta_2,\ldots,\beta_n\in\mathbb{R}$ 使得 $\mathbf{x}=\sum\limits_{i=1}^n\beta_i\mathbf{v}_i.$
我们称线性无关且张成向量空间 $\mathbb{E}$ 的一组向量为 $\mathbb{E}$ 的一组基. 易知不同基内, 向量数相等. 我们称这个数目为 $\mathbb{E}$ 的维数 (dimension), 记为 $\dim(\mathbb{E})$ . 本书中, 我们仅讨论有限维向量空间 (finite dimensional vector space).

3. 范数

向量空间 $\mathbb{E}$ 上的范数 (norm) $\Vert\cdot\Vert$ 是 $\mathbb{E}$ 上的泛函 $\Vert\cdot\Vert:\mathbb{E}\to\mathbb{R}$ , 且满足以下性质:

(非负性) $\Vert \mathbf{x}\Vert\ge0,\forall \mathbf{x}\in\mathbb{E}$ ; $\Vert \mathbf{x}\Vert=0$ 当且仅当 $\mathbf{x}=\mathbf{0}$ ;
(正齐次性) $\Vert\lambda \mathbf{x}\Vert=|\lambda|\cdot\Vert \mathbf{x}\Vert,\forall \mathbf{x}\in\mathbb{E},\lambda\in\mathbb{R}$ ;
(三角不等式性) $\Vert \mathbf{x}+\mathbf{y}\Vert\le\Vert \mathbf{x}\Vert+\Vert \mathbf{y}\Vert,\forall \mathbf{x},\mathbf{y}\in\mathbb{E}$ .

有时, 我们以 $\Vert\cdot\Vert_{\mathbb{E}}$ 表示 $\mathbb{E}$ 上的范数以强调对空间的依赖性.² 我们称具有范数的向量空间为赋范空间 (normed vector space) . 利用范数, 我们定义以 $\mathbf{c}\in\mathbb{E}$ 为中心, $r > 0$ 为半径的开球 $B(\mathbf{c},r)$ 为 $B(\mathbf{c},r)=\{\mathbf{x}\in\mathbb{E}:\Vert \mathbf{x}-\mathbf{c}\Vert<r\}.$ 相应地, 闭球 $B[\mathbf{c},r]$ 为 $B[\mathbf{c},r]=\{\mathbf{x}\in\mathbb{E}:\Vert \mathbf{x}-\mathbf{c}\Vert\le r\}.$ 有时我们以 $B_{\Vert\cdot\Vert}[\mathbf{c},r]$ 或 $B_{\Vert\cdot\Vert}(\mathbf{c},r)$ 来明确使用的范数.

4. 内积

实向量空间 $\mathbb{E}$ 的内积可以视作是由 $\mathbb{E}\times\mathbb{E}$ 到 $\mathbb{R}$ 的泛函. 具体地, 使用记号 $\langle\cdot,\cdot\rangle$ , 将 $\mathbb{E}\times\mathbb{E}$ 中的元素 $(\mathbf{x},\mathbf{y})$ 映射成 $\mathbb{R}$ 中的 $\langle \mathbf{x},\mathbf{y}\rangle$ . $\langle\cdot,\cdot\rangle$ 满足如下性质:

(可交换性) $\langle \mathbf{x},\mathbf{y}\rangle=\langle \mathbf{y},\mathbf{x}\rangle,\quad\forall \mathbf{x},\mathbf{y}\in\mathbb{E}$ ;
(线性性) $(\alpha_1\mathbf{x}_1+\alpha_2\mathbf{x}_2,\mathbf{y}\rangle=\alpha_1\langle \mathbf{x}_1,\mathbf{y}\rangle+\alpha_2\langle \mathbf{x}_2,\mathbf{y}\rangle,\quad\forall\alpha_1,\alpha_2\in\mathbb{R},\mathbf{x}_1,\mathbf{x}_2,\mathbf{y}\in\mathbb{E}$ ;
(正定性) $\langle \mathbf{x},\mathbf{x}\rangle\ge0,\quad\forall \mathbf{x}\in\mathbb{E}$ ; $\langle \mathbf{x},\mathbf{x}\rangle=0$ 当且仅当 $\mathbf{x}=\mathbf{0}$ .

我们称具有内积的向量空间为内积空间 (inner product vector space) .³

5. 仿射集和凸集

给定一实向量空间 $\mathbb{E}$ , 我们称集合 $S\subset\mathbb{E}$ 是仿射集 (affine set), 若 $\forall \mathbf{x},\mathbf{y}\in S,\lambda\in\mathbb{R}$ , 有 $\lambda \mathbf{x}+(1-\lambda)\mathbf{y}\in S$ . 也即 $S$ 中的任意两点所在的直线上的点均在 $S$ 中. 对于 $S\subset \mathbb{E}$ , $S$ 的仿射包 (affine hull) 为包含 $S$ 的所有仿射集的交, 记作 $\mathrm{aff}(S)$ . 显然, $\mathrm{aff}(S)$ 是包含 $S$ 的最小仿射集. $\mathbb{E}$ 中的超平面 (hyperplane) 定义为 $H_{\mathbf{a},b}=\{\mathbf{x}\in\mathbb{E}:\langle\mathbf{a},\mathbf{x}\rangle=b\},$ 其中 $\mathbb{a}\in\mathbb{E},b\in\mathbb{R}$ . 易证任意一个超平面都是仿射集.
我们称集合 $C\subset\mathbb{E}$ 是凸集 (convex set), 若对 $\forall \mathbf{x},\mathbf{y}\in C,\lambda\in[0,1]$ , 有 $\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\in C$ . 由定义可知, 仿射集一定是凸集; 不论范数的选取, 开球和闭球一定是凸集.
给定 $\mathbf{x},\mathbf{y}\in\mathbb{E}$ , $\mathbf{x}$ 和 $\mathbf{y}$ 之间的闭线段 (closed line segment) $[\mathbf{x},\mathbf{y}]$ 定义为 $[\mathbf{x},\mathbf{y}]=\{\alpha\mathbf{x}+(1-\alpha)\mathbf{y}:\alpha\in[0,1]\}.$ 对应地, 也有开线段 $(\mathbf{x},\mathbf{y})=\{\alpha\mathbf{x}+(1-\alpha)\mathbf{y}:\alpha\in(0,1)\}.$ 当 $\mathbf{x}=\mathbf{y}$ , 有 $(\mathbf{x},\mathbf{y})=\emptyset$ . 闭线段和开线段都是凸集. 另一个凸集的例子是半空间. 它形如 $H_{\mathbf{a},b}^-=\{\mathbf{x}\in\mathbb{E}:\langle\mathbf{a},\mathbf{x}\rangle\le b\},$ 这里 $\mathbf{a}\in\mathbb{E},b\in\mathbb{R}$ .

6. 欧式空间

我们称定义了内积 $\langle\cdot,\cdot\rangle$ 的有限维实赋范向量空间为欧式空间 (Euclidean space). 其中每个元素 $\mathbf{x}$ 的范数定义为 $\Vert\mathbf{x}\Vert=\sqrt{\langle\mathbf{x},\mathbf{x}\rangle}$ (即内积诱导 (induced) 的范数). 我们称这样的范数为欧式范数 (Euclidean norm).

7. 实空间 $\mathbb{R}^n$

所有 $n$ ( $\in\mathbb{N}_+$ ) 维实列向量构成实空间 $\mathbb{R}^n$ , 其中“ $+$ ”运算定义为 $\begin{pmatrix}x_1\\x_2\\\vdots\\x_n\end{pmatrix}+\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}x_1+y_1\\x_2+y_2\\\vdots\\x_n+y_n\end{pmatrix},$ 数乘运算定义为 $\lambda\begin{pmatrix}x_1\\x_2\\\vdots\\x_n\end{pmatrix}=\begin{pmatrix}\lambda x_1\\\lambda x_2\\\vdots\\\lambda x_n\end{pmatrix},$ 这里 $x_1,x_2,\ldots,x_n,\lambda\in\mathbb{R}$ . 我们记 $\mathbb{R}^n$ 的标准基为 $\mathbf{e}_1,\mathbf{e}_2,\ldots,\mathbf{e}_n$ , 其中 $\mathbf{e}_i$ 是只有第 $i$ 个分量为1的 $n$ 维列向量. 全1向量和零向量则分别用 $\mathbf{e},\mathbf{0}$ 表示.

$\mathbb{R}^n$ 中最常用的内积为点积 (dot product)⁴, 定义为 $\langle\mathbf{x},\mathbf{y}\rangle=\sum\limits_{i=1}^nx_iy_i.$ 在 $\mathbb{R}^n$ 中我们自然也可以定义其他内积. 例如 $\mathbf{Q}$ -内积, 定义为 $\langle\mathbf{x},\mathbf{y}\rangle_{\mathbf{Q}}=\mathbf{x}^T\mathbf{Q}\mathbf{y},$ 其中 $\mathbf{Q}$ 为 $n\times n$ 正定矩阵. 显然 $\mathbf{Q}$ -内积在 $\mathbf{Q}=\mathbf{I}$ 时, 就是点积.
相应地, $\mathbb{R}^n$ 中定义的欧式范数有 $\ell_2$ -范数以及 $\mathbf{Q}$ -范数, 分别定义为 $\Vert\mathbf{x}\Vert_2=\sqrt{\langle\mathbf{x},\mathbf{x}\rangle}=\sqrt{\sum\limits_{i=1}^nx_i^2},\quad \Vert\mathbf{x}\Vert_{\mathbf{Q}}=\sqrt{\mathbf{x}^T\mathbf{Q}\mathbf{x}}.$ 我们还可以在 $\mathbb{R}^n$ 上定义不是欧式范数的范数, 例如给定 $p\ge1$ , 我们有 $\ell_2$ -范数的推广 $\ell_p$ -范数: $\Vert\mathbf{x}\Vert_p=\sqrt[p]{\sum\limits_{i=1}^n|x_i|^p}.$ 我们称赋以 $\ell_p$ -范数的向量空间为 $\ell_p$ -空间⁵. 特别地, $\mathbb{R}^n$ 上的 $\ell_1$ -范数定义为 $\Vert\mathbf{x}\Vert_1=\sum\limits_{i=1}^n|x_i|,$ $\ell_{\infty}$ -范数定义为 $\Vert\mathbf{x}\Vert_{\infty}=\max_{i=1,2,\ldots,n}|x_i|.$

7.1 $\mathbb{R}^n$ 中的特殊集合

非负象限 (nonnegative orthant) 与正象限 (positive orthant): $\mathbb{R}_+^n=\{(x_1,x_2,\ldots,x_n)^T:x_1,x_2,\ldots,x_n\ge0\},$ $\mathbb{R}^n_{++}=\{(x_1,x_2,\ldots,x_n)^T:x_1,x_2,\ldots,x_n>0\};$
单位单纯形 (unit simplex): $\Delta_n=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{x}\ge\mathbf{0},\mathbf{e}^T\mathbf{x}=1\};$
箱型子集 (box): 给定 $\mathbf{\ell},\mathbf{u}\in\mathbb{R}^n:\mathbf{\ell}\le\mathbf{u}$ , $\mathrm{Box}[\mathbf{\ell},\mathbf{u}]=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{\ell}\le\mathbf{x}\le\mathbf{u}\}.$

7.2 $\mathbb{R}^n$ 中的特殊运算

取非负部 (nonnegative part): $[\mathbf{x}]_+=\left(\max\{x_i,0\}\right)_{i=1}^n;$
取绝对值: $|\mathbf{x}|=\left(|x_i|\right)_{i=1}^n;$
符号函数: $\mathrm{sgn}(\mathbf{x})_i=\left\{\begin{array}{ll}1, & x_i\ge0,\\-1, & x_i<0.\end{array}\right.$
Hadamard积: $\mathbf{a}\odot\mathbf{b}=\left(a_ib_i\right)_{i=1}^n.$

注意, 以上运算均为元素级的运算.

8. 实空间 $\mathbb{R}^{m\times n}$

所有实 $m\times n$ 矩阵构成的实向量空间为 $\mathbb{R}^{m\times n}$ . 此空间中加法“ $+$ ”和数乘的定义是 $\mathbb{R}^n$ 中的推广, 即均为元素级的对应运算. $\mathbb{R}^{m\times n}$ 中的点积定义为 $\langle\mathbf{A},\mathbf{B}\rangle=\mathrm{Tr}(\mathbf{A}^T\mathbf{B})=\sum\limits_{i=1}^m\sum\limits_{j=1}^nA_{ij}B_{ij},\quad\forall \mathbf{A},\mathbf{B}\in\mathbb{R}^{m\times n}.$ 事实上, 这一点积的定义同样是 $\mathbb{R}^n$ 中点积定义的推广⁶. 这只需将 $\mathbb{R}^{m\times n}$ 中的元素一一对应到 $\mathbb{R}^{mn}$ 中的列向量即可⁷.

8.1 $\mathbb{R}^{n\times n}$ 中的特殊子集

对称矩阵加群⁸: $\mathbb{S}^n=\{\mathbf{A}\in\mathbb{R}^{n\times n}:\mathbf{A}=\mathbf{A}^T\};$
半正定子集和正定子集、半负定子集和负定子集: $\mathbb{S}_+^n=\{\mathbf{A}\in\mathbb{R}^{n\times n}:\mathbf{A}\succeq\mathbf{0}\};$ $\mathbb{S}_{++}^n=\{\mathbf{A}\in\mathbb{R}^{n\times n}:\mathbf{A}\succ\mathbf{0}\};$ $\mathbb{S}_-^n=\{\mathbf{A}\in\mathbb{R}^{n\times n}:\mathbf{A}\preceq\mathbf{0}\};$ $\mathbb{S}_{--}^n=\{\mathbf{A}\in\mathbb{R}^{n\times n}:\mathbf{A}\prec\mathbf{0}\};$
正交矩阵群: $\mathbb{O}^n=\{\mathbf{A}\in\mathbb{R}^{n\times n}:\mathbf{A}\mathbf{A}^T=\mathbf{A}^T\mathbf{A}=\mathbf{I}\}.$

8.2 $\mathbb{R}^{m\times n}$ 中的范数

若 $\mathbb{R}^{m\times n}$ 中的内积为默认的点积, 则对应的欧式范数为我们所熟悉的 $F$ -范数 (Frobenius norm): $\Vert\mathbf{A}\Vert_F=\sqrt{\mathrm{Tr}(\mathbf{A}^T\mathbf{A})}=\sqrt{\sum\limits_{i=1}^m\sum\limits_{j=1}^nA_{ij}^2},\quad\mathbf{A}\in\mathbb{R}^{m\times n}.$ 矩阵空间中还有诱导范数 (induced norm) 的概念. 给定 $\mathbf{A}\in\mathbb{R}^{m\times n}$ 以及 $\mathbb{R}^n,\mathbb{R}^m$ 上的范数 $\Vert\cdot\Vert_a,\Vert\cdot\Vert_b$ , 则 $\mathbf{A}$ 的诱导范数 $\Vert A\Vert_{a,b}$ 定义为 $\Vert\mathbf{A}\Vert_{a,b}=\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_b:\Vert\mathbf{x}\Vert_a\le1\}.$ 以上的定义给出了不等式 $\Vert\mathbf{Ax}\Vert_b\le\Vert\mathbf{A}\Vert_{a,b}\Vert\mathbf{x}\Vert_a,\quad\forall\mathbf{x}\in\mathbb{R}^n.$ 这一形式的不等式在本章中我们会经常见到. 特别地, 诱导范数的定义具有以下等价形式⁹: $\Vert\mathbf{A}\Vert_{a,b}=\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_b:\Vert\mathbf{x}\Vert_a=1\}=\max_{\mathbf{x}\neq0}\frac{\Vert\mathbf{Ax}\Vert_b}{\Vert\mathbf{x}\Vert_a}.$ 第二个等号是显然的. 因此我们仅对第一个等号进行说明. 根据定义, 我们有 $\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_b:\Vert\mathbf{x}\Vert_a\le1\}\ge\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_b:\Vert\mathbf{x}\Vert_a=1\}.$ 而对 $\forall\mathbf{x}\in\mathbb{R}^n:\Vert\mathbf{x}\Vert_a\le1$ , 我们有 $\Vert\mathbf{Ax}\Vert_b\le\frac{\Vert\mathbf{Ax}\Vert_b}{\Vert\mathbf{x}\Vert_a}\le\max\limits_{\mathbf{x}\neq0}\frac{\Vert\mathbf{Ax}\Vert_b}{\Vert\mathbf{x}\Vert_a}=\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_b:\Vert\mathbf{x}\Vert_a=1\}.$ 再在左端对 $\mathbf{x}$ 取极大, 即有 $\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_b:\Vert\mathbf{x}\Vert_a\le1\}\le\max_{\mathbf{x}}\{\Vert\mathbf{Ax}\Vert_b:\Vert\mathbf{x}\Vert_a=1\}.$ 第一个等号即得证. 我们称矩阵范数 $\Vert\cdot\Vert_{a,b}$ 为 $(a, b)$ -范数. 当 $a = b$ 时, 我们就称之为 $a$ -范数, 并使用记号 $\Vert\cdot\Vert_a$ . 下面给出一些诱导范数的具体例子.

例1 (谱范数 (spectral norm)) 若 $\Vert\cdot\Vert_a=\Vert\cdot\Vert_b=\Vert\cdot\Vert_2$ , 则 $\mathbf{A}$ 的诱导范数为 $\mathbf{A}$ 的最大奇异值: $\Vert\mathbf{A}\Vert_2=\Vert\mathbf{A}\Vert_{2,2}=\sqrt{\lambda_{\max}(\mathbf{A}^T\mathbf{A})}=\sigma_{\max}(\mathbf{A}).$ 这里第二个等号可用Rayleigh商导出, 而最后一个等式则可由 $\mathbf{A}$ 的奇异值分解 (singular value decomposition)得到.

例2 ( $1$ -范数) 当 $\Vert\cdot\Vert_a=\Vert\cdot\Vert_b=\Vert\cdot\Vert_1$ , 则 $\mathbf{A}$ 的诱导范数为 $\Vert\mathbf{A}\Vert_1=\max\limits_{j=1,2,\ldots,n}\sum\limits_{i=1}^m|A_{i,j}|.$ 这一范数也被称为最大绝对值列和范数 (maximum absolute column sum norm).

例3 ( $\infty$ -范数) 当 $\Vert\cdot\Vert_a=\Vert\cdot\Vert_b=\Vert\cdot\Vert_{\infty}$ , 则 $\mathbf{A}$ 的诱导范数为 $\Vert\mathbf{A}\Vert_{\infty}=\max\limits_{i=1,2,\ldots,m}\sum\limits_{j=1}^n|A_{i,j}|.$ 这一范数也被称为最大绝对值行和范数 (maximum absolute row sum norm).

注意, 以上例2-3中的范数表示均可用诱导范数的定义及其等价形式证明. 一般说来, “ $\le$ ”是好证的. 证明“ $\ge$ ”则往往需要我们构造一些实例.

9. 向量空间的笛卡尔积

给定 $m$ 个向量空间 $\mathbb{E}_1,\mathbb{E}_2,\ldots,\mathbb{E}_m$ , 其中对每个 $i$ , $\mathbb{E}_i$ 上定义了内积 $\langle\cdot,\cdot\rangle_{\mathbb{E}_i}$ , 则所有的 $m$ -元组 $(\mathbf{v}_1,\mathbf{v}_2,\ldots,\mathbf{v}_m):\mathbf{v_i}\in\mathbb{E}_i$ 构成了它们的笛卡尔积 (Cartesian Product) $\mathbb{E}_1\times\mathbb{E}_2\times\cdots\times\mathbb{E}_m$ . 在其上的加法和数乘运算均按分量进行.
特别地, 笛卡尔积空间的内积定义为 $\langle(\mathbf{v}_1,\mathbf{v}_2,\ldots,\mathbf{v}_m),(\mathbf{w}_1,\mathbf{w}_2,\ldots,\mathbf{w}_m)\rangle_{\mathbb{E}_1\times\mathbb{E}_2\times\cdots\times\mathbb{E}_m}=\sum\limits_{i=1}^m\langle\mathbf{v}_i,\mathbf{w}_i\rangle_{\mathbb{E}_i}.$ 例如空间 $\mathbb{R}\times\mathbb{R}$ 就由所有二维实行向量组成, 因此从定义上来说它与 $\mathbb{R}^2$ 是不同的. 但在不至混淆的前提下, 我们有时将二者视作等同.
若 $\mathbb{E}_1,\mathbb{E}_2,\ldots,\mathbb{E}_m$ 为欧式空间, 则笛卡尔积 $\mathbb{E}_1\times\mathbb{E}_2\times\cdots\times\mathbb{E}_m$ 也是欧式空间. 相应地, 我们有笛卡尔积空间的欧式范数 $\Vert(\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_m)\Vert_{\mathbb{E}_1\times\mathbb{E}_2\times\cdots\times\mathbb{E}_m}=\sqrt{\sum\limits_{i=1}^m\Vert\mathbf{u}_i\Vert_{\mathbb{E}_i}^2}.$ 这也被称为复合 (composite) $\ell_2$ -范数. 推广至一般情形, 对 $\forall p\ge1$ , 定义复合 $\ell_p$ -范数为 $\Vert(\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_m)\Vert=\sqrt[p]{\sum\limits_{i=1}^m\Vert\mathbf{u}_i\Vert_{\mathbb{E}_i}^p}.$ 进一步, 有复合加权 $\ell_p$ -范数: $\Vert(\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_m)\Vert=\sqrt[p]{\sum\limits_{i=1}^mw_i\Vert\mathbf{u}_i\Vert_{\mathbb{E}_i}^p},$ 这里 $w_1,w_2,\ldots,w_m\in\mathbb{R}_+$ .

10. 线性映射

给定两向量空间 $\mathbb{E},\mathbb{V}$ , 我们称映射 $\mathcal{A}:\mathbb{E}\to\mathbb{V}$ 为线性映射 (linear transformation) , 若对 $\forall\mathbf{x},\mathbf{y}\in\mathbb{E},\alpha,\beta\in\mathbb{R}$ , 有 $\mathcal{A}(\alpha\mathbf{x}+\beta\mathbf{y})=\alpha\mathcal{A}(\mathbf{x})+\beta\mathcal{A}(\mathbf{y}).$ 特别地, 由高等线性代数可得, 从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的所有线性映射均具有形式 $\mathcal{A}(\mathbf{x})=\mathbf{Ax},\quad\exists\mathbf{A}\in\mathbb{R}^{m\times n}.$ 而从 $\mathbb{R}^{m\times n}$ 到 $\mathbb{R}^k$ 的所有线性映射均具有形式 $\mathcal{A}(\mathbf{X})=\begin{pmatrix}\mathrm{Tr}(\mathbf{A}_1^T\mathbf{X})\\\mathrm{Tr}(\mathbf{A}_2^T\mathbf{X})\\\vdots\\\mathrm{Tr}(\mathbf{A}_1^T\mathbf{X})\end{pmatrix},\quad\exists\mathbf{A}_1,\mathbf{A}_2,\ldots,\mathbf{A}_k\in\mathbb{R}^{m\times n}.$ 另外, 我们记恒等映射 (identity transformation) 为 $\mathcal{I}:\mathcal{I}(\mathbf{x})=\mathbf{x},\forall\mathbf{x}\in\mathbb{E}$ .

11. 对偶空间

向量空间 $\mathbb{E}$ 上的线性泛函 (linear functional) 为将 $\mathbb{E}$ 映到 $\mathbb{R}$ 上的线性映射. 而给定向量空间 $\mathbb{E}$ , 其上所有的线性泛函就构成了 $\mathbb{E}$ 的对偶空间 (dual space), 记作 $\mathbb{E}^*$ . 对定义了内积的空间, 由Riesz表示定理可知对 $\forall f\in\mathbb{E}^*$ , $\exists\mathbf{v}\in\mathbb{E}$ , 使得 $f(\mathbf{x})=\langle\mathbf{v},\mathbf{x}\rangle.$ 反之, 对 $\forall\mathbf{v}\in\mathbb{E}$ , 上面的表达式也定义了一个线性泛函. 由于这样的一一对应关系¹⁰的存在, 因此有时我们对 $f$ 和 $\mathbf{v}$ 不进行区分. 进一步我们知道, $\mathbb{E}$ 与 $\mathbb{E}^*$ 之间唯一的不同在于二者所选取的范数上. 设 $\mathbb{E}$ 上定义了范数 $\Vert\cdot\Vert$ . 于是我们可以如下定义对偶空间上的范数, 这也叫做对偶范数 (或算子范数) (dual norm): $\Vert\mathbf{y}\Vert_*\equiv\max_{\mathbf{x}}\{\langle\mathbf{y},\mathbf{x}\rangle:\Vert\mathbf{x}\Vert\le1\}=\max_{\mathbf{x}}\{\langle\mathbf{y},\mathbf{x}\rangle:\Vert\mathbf{x}\Vert=1\},\quad\mathbf{y}\in\mathbb{E}^*.$ 注意这里的 $\mathbf{y}$ 可以视作 $\mathbb{E}$ 中的元. 这表示上式实际上定义了 $\mathbb{E}$ 中的一个范数.
由以上对偶范数的定义, 我们可导出推广的Cauchy-Schwarz不等式.

引理1 (推广的Cauchy-Schwarz不等式) 令 $\mathbb{E}$ 为赋范内积空间, 则 $|\langle\mathbf{y},\mathbf{x}\rangle|\le\Vert\mathbf{y}\Vert_*\Vert\mathbf{x}\Vert,\quad\forall\mathbf{y}\in\mathbb{E}^*,\mathbf{x}\in\mathbb{E}.$ 证明: 若 $\mathbf{x}=0$ , 则不等式显然成立. 不然, 令 $\tilde\mathbf{x}=\frac{\mathbf{x}}{\Vert\mathbf{x}\Vert}$ . 显然 $\Vert\tilde\mathbf{x}\Vert=1$ . 因此由对偶范数的定义, 可得 $\Vert\mathbf{y}\Vert_*\ge\langle\mathbf{y},\tilde\mathbf{x}\rangle=\frac{1}{\Vert\mathbf{x}\Vert}\langle\mathbf{y},\mathbf{x}\rangle\Rightarrow\langle\mathbf{y},\mathbf{x}\rangle\le\Vert\mathbf{y}\Vert_*\Vert\mathbf{x}\Vert.$ 用 $-\mathbf{x}$ 替换上面的 $\mathbf{x}$ , 又可得 $\langle\mathbf{y},\mathbf{x}\rangle\ge-\Vert\mathbf{y}\Vert_*\Vert\mathbf{x}\Vert.$ 证毕.

那么什么时候原范数和定义的对偶范数是相同的呢? 下面的定理告诉我们, 在 $\mathbb{E}$ 是欧式空间时, 欧式范数是自对偶的 (self-dual), 也即 $Vert\cdot\Vert_*$ .

定理1 任何欧式空间 $\mathbb{E}$ 都是自对偶的.
证明: 对 $\forall\mathbf{x}\in\mathbb{E}$ , $\Vert\mathbf{x}\Vert_*\ge\left\langle\mathbf{x},\frac{\mathbf{x}}{\Vert\mathbf{x}\Vert}\right\rangle=\Vert\mathbf{x}\Vert.$ 另一方面, 由欧式空间中的Cauchy-Schwarz不等式, $\begin{aligned}\Vert\mathbf{x}\Vert_*=\max_{\mathbf{y}}\{\langle\mathbf{x},\mathbf{y}\rangle:\Vert\mathbf{y}\Vert\le1\}&\le\max_{\mathbf{y}}\{\Vert\mathbf{x}\Vert\Vert\mathbf{y}\Vert:\Vert\mathbf{y}\Vert\le1\}\\ &\le\max_{\mathbf{y}:\Vert\mathbf{y}\Vert\le1}\{\Vert\mathbf{x}\Vert\}=\Vert\mathbf{x}\Vert.\end{aligned}$ 证毕.

定理1说明, 当 $\mathbb{E}$ 是欧式空间, 在不至混淆的前提下, 我们有 $\mathbb{E}=\mathbb{E}^*$ .

例5 ( $\ell_p$ -范数) 考虑赋以 $\ell_p$ -范数的实空间 $\mathbb{R}^n$ . 当 $p > 1$ , 其对偶范数为 $\ell_q$ -范数, 其中 $q>1:\frac{1}{p}+\frac{1}{q}=1$ . 特别地, 当 $p = 1$ , 其对偶范数为 $\ell_{\infty}$ -范数, 反之 $\ell_{\infty}$ -范数的对偶范数为 $\ell_1$ -范数.

例6 ( $\mathbf{Q}$ -范数) 考虑赋以 $\mathbf{Q}$ -范数的实空间 $\mathbb{R}^n$ , 其中 $\mathbf{Q}\in\mathbb{S}_{++}^n$ . $\Vert\cdot\Vert_{\mathbf{Q}}$ 的对偶范数为 $\Vert\cdot\Vert_{\mathbf{Q}^{-1}}$ : $\Vert\mathbf{x}\Vert_{\mathbf{Q}^{-1}}=\sqrt{\mathbf{x}^T\mathbf{Q}^{-1}\mathbf{x}}.$ 特别地, 考虑 $\mathbf{Q}$ 是对角阵 $\mathbf{Q}=\mathrm{diag}(w_1,w_2,\ldots,w_n):w_1,w_2,\ldots,w_n>0$ . 于是 $\Vert\mathbf{x}\Vert=\sqrt{\sum\limits_{i=1}^nw_ix_i^2},$ 其对偶范数为 $\Vert\mathbf{x}\Vert_*=\sqrt{\sum\limits_{i=1}^n\frac{1}{w_i}x_i^2}.$

例7 (笛卡尔积空间的对偶范数) 考虑笛卡尔积空间 $\mathbb{E}=\mathbb{E}_1\times\mathbb{E}_2\times\cdots\times\mathbb{E}_m$ , 其中 $\mathbb{E}_1,\mathbb{E}_2,\ldots,\mathbb{E}_m$ 为欧式空间. 其对偶空间为 $\mathbb{E}_1^*\times\mathbb{E}_2^*\times\cdots\times\mathbb{E}_m^*$ . 例如若笛卡尔积空间的范数为复合加权 $\ell_2$ -范数: $\Vert(\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_m)\Vert=\sqrt{\sum\limits_{i=1}^mw_i\Vert\mathbf{u}_i\Vert_{\mathbb{E}_i}^2},\quad\mathbf{u}_i\in\mathbb{E}_i,i=1,2,\ldots,p,$ 其中 $w_1,w_2,\ldots,w_m>0$ 为给定的权重. 则其对偶范数为 $\Vert(\mathbf{v}_1,\mathbf{v}_2,\ldots,\mathbf{v}_m)\Vert_*=\sqrt{\sum\limits_{i=1}^m\frac{1}{w_i}\Vert\mathbf{v}_i\Vert_{\mathbb{E}_i^*}^2},\quad\mathbf{v}_i\in\mathbb{E}_i^*,i=1,2,\ldots,p.$ 这里 $\Vert\cdot\Vert_{\mathbb{E}_i}^*$ 为 $\Vert\cdot\Vert_{\mathbb{E}_i}$ 的对偶范数.

12. 二次对偶空间

给定向量空间 $\mathbb{E}$ , 其对偶空间 $\mathbb{E}^*$ 同样也是向量空间, 因此我们也可以定义它的对偶空间 $\mathbb{E}^{**}\triangleq(\mathbb{E}^*)^*$ . 我们称之为二次对偶空间 (bidual space). 由泛函分析可知, 自反空间 (reflexive space) 的二次对偶就是它本身 (元素上看), 而且范数也是相同的. 特别地, 有限维向量空间.

13. 伴随映射

给定两个内积空间 $\mathbb{E},\mathbb{V}$ 和从 $\mathbb{V}$ 到 $\mathbb{E}$ 的线性映射 $\mathcal{A}$ , 我们以如下方式定义其伴随映射 (adjoint transformation) $\mathcal{A}^T:\mathbb{E}^*\to\mathbb{V}^*$ : $\langle\mathbf{y},\mathcal{A}(\mathbf{x})\rangle=\langle\mathcal{A}^T(\mathbf{y}),\mathbf{x}\rangle,\quad\forall\mathbf{x}\in\mathbb{V},\mathbf{y}\in\mathbb{E}^*.$ 特别地, 当 $\mathbb{V}=\mathbb{R}^n,\mathbb{E}=\mathbb{R}^m$ , $\mathcal{A}(\mathbf{x})=\mathbf{Ax},\exists\mathbf{A}\in\mathbb{R}^{m\times n}$ . 可以验证伴随映射的定义为 $\mathcal{A}^T(\mathbf{x})=\mathbf{A}^T\mathbf{x}$ .

例8 (从 $\mathbb{R}^{m\times n}$ 到 $\mathbb{R}^k$ 映射的伴随) 考虑从 $\mathbb{R}^{m\times n}$ 到 $\mathbb{R}^k$ 的线性映射: $\mathcal{A}(\mathbf{x})=\begin{pmatrix}\mathrm{Tr}(\mathbf{A}_1^T\mathbf{X})\\\mathrm{Tr}(\mathbf{A}_2^T\mathbf{X})\\\vdots\\\mathrm{Tr}(\mathbf{A}_n^T\mathbf{X})\end{pmatrix},\quad\exists\mathbf{A}_i\in\mathbb{R}^{m\times n},i=1,2,\ldots,k.$ 于是伴随映射 $\mathcal{A}^T$ 从 $\mathbb{R}^k$ 映到 $\mathbb{R}^{m\times n}$ . 为将其具体写出, 考虑伴随映射的定义式: $\begin{aligned}\langle\mathbf{y},\mathcal{A}(\mathbf{X})\rangle&=\langle\mathcal{A}^T(\mathbf{y}),\mathbf{X}\rangle,\quad\forall\mathbf{X}\in\mathbb{R}^{m\times n},\mathbf{y}\in\mathbb{R}^k\\ \Leftrightarrow\sum\limits_{i=1}^ky_i\mathrm{Tr}(\mathbf{A}_i^T\mathbf{X})&=\langle\mathcal{A}^T(\mathbf{y}),\mathbf{X}\rangle,\quad\forall\mathbf{X}\in\mathbb{R}^{m\times n},\mathbf{y}\in\mathbb{R}^k\\ \Leftrightarrow\mathrm{Tr}\left(\left[\sum\limits_{i=1}^ky_i\mathbf{A}_i\right]^T\mathbf{X}\right)&=\langle\mathcal{A}^T(\mathbf{y}),\mathbf{X}\rangle,\quad\forall\mathbf{X}\in\mathbb{R}^{m\times n},\mathbf{y}\in\mathbb{R}^k\\ \Leftrightarrow\mathcal{A}^T(\mathbf{y})&=\sum\limits_{i=1}^ky_i\mathbf{A}_i,\quad\forall\mathbf{y}\in\mathbb{R}^k.\end{aligned}$ 伴随映射的伴随是原映射: $(\mathcal{A}^T)^T=\mathcal{A}$ . 当 $\mathcal{A}$ 为可逆映射是, 我们还有 $(\mathcal{A}^T)^{-1}=(\mathcal{A}^{-1})^T.$

14. 线性算子的范数

令 $\mathcal{A}:\mathbb{E}\to\mathbb{V}$ 为从 $\mathbb{E}$ 到 $\mathbb{V}$ 的线性映射. 线性映射 $\mathcal{A}$ 的范数定义为 $\Vert\mathcal{A}\Vert=\max\{\Vert\mathcal{A}(\mathbf{x})\Vert_{\mathbb{V}}:\Vert\mathbf{x}\Vert_{\mathbb{E}}\le1\}.$ 易见, 这一定义是第8节矩阵诱导范数和第11节对偶空间范数定义的推广. 易证 $\Vert\mathcal{A}\Vert=\Vert\mathcal{A}^T\Vert$ . 事实上, 由定义, $\langle\mathbf{y},\mathcal{A}(\mathbf{x})\rangle=\langle\mathcal{A}^T(\mathbf{y}),\mathbf{x}\rangle,\quad\forall\mathbf{x}\in\mathbb{E},\mathbf{y}\in\mathbb{V}^*:\Vert\mathbf{x}\Vert_{\mathbb{E}},\Vert\mathbf{y}\Vert_{\mathbb{V}^*}\le1.$ 由推广的Cauchy-Schwarz不等式, $\langle\mathcal{A}^T(\mathbf{y}),\mathbf{x}\rangle\le\Vert\mathcal{A}^T(\mathbf{y})\Vert_{\mathbb{E}^*}\cdot\Vert\mathbf{x}\Vert_{\mathbb{E}}\le\Vert\mathcal{A}^T(\mathbf{y})\Vert_{\mathbb{E}^*}\le\Vert\mathcal{A}^T\Vert.$ 最后一个不等式来自于线性算子范数的定义. 因此, $\langle\mathbf{y},\mathcal{A}(\mathbf{x})\rangle\le\Vert\mathcal{A}^T\Vert,\quad\forall\mathbf{x}\in\mathbb{E},\mathbf{y}\in\mathbb{V}^*:\Vert\mathbf{x}\Vert_{\mathbb{E}},\Vert\mathbf{y}\Vert_{\mathbb{V}^*}\le1.$ 将 $\mathbf{y}$ 视为 $\mathbb{V}$ 中的元素, 令 $\mathbf{y}=\frac{\mathcal{A}(\mathbf{x})}{\Vert\mathcal{A}(\mathbf{x})\Vert_{\mathbb{V}}}$ . 于是有 $\Vert\mathcal{A}(\mathbf{x})\Vert_{\mathbb{V}}\le\Vert\mathcal{A}^T\Vert,\quad\forall\mathbf{x}\in\mathbb{E}:\Vert\mathbf{x}\Vert_{\mathbb{E}}\Rightarrow\Vert\mathcal{A}\Vert\le\Vert\mathcal{A}^T\Vert.$ 反之类似, 得证.
在第8节讨论的诱导范数和如上定义的线性映射的范数之间也有一个显式的关系. 设 $\mathcal{A}$ 为 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的线性映射: $\mathcal{A}(\mathbf{x})=\mathbf{Ax},\quad\exists\mathbf{A}\in\mathbb{R}^{m\times n}.$ 设 $\mathbb{R}^n,\mathbb{R}^m$ 分别赋以范数 $\Vert\cdot\Vert_a,\Vert\cdot\Vert_b$ . 于是 $\Vert\mathcal{A}\Vert=\Vert\mathbf{A}\Vert_{a,b}$ .

注意此处的1是实数1而不是 $\mathbb{E}$ 中的“单位元”. 事实上若没有定义“乘法”, $\mathbb{E}$ 中的单位元无从说起. ↩︎
事实上同一个空间也有不同的范数取法, 但它们在有限维空间中都是等价的. 比如对 $\mathbb{E}$ 中的两种范数 $\Vert\cdot\Vert_1,\Vert\cdot\Vert_2$ , 则存在 $0\le c_1\le c_2$ , 使得 $c_1\Vert \mathbf{x}\Vert_2\le\Vert \mathbf{x}\Vert_1\le c_2\Vert \mathbf{x}\Vert_2$ 对 $\forall \mathbf{x}\in\mathbb{E}$ 均成立. 这一结论可以进一步推广到无穷维Banach空间. ↩︎
本书中所讨论的向量空间, 如不说明, 默认为有限维实赋范内积空间. ↩︎
本书 $\mathbb{R}^n$ 中的内积, 如不说明, 则默认为点积. ↩︎
注意 $\ell_p$ -空间都是Banach空间, 但只有 $\ell_2$ -空间是Hilbert空间; $\ell_p$ -空间可以是无限维的. ↩︎
同样地, 本书中 $\mathbb{R}^{m\times n}$ 的内积, 如不说明, 则默认为点积. ↩︎
这一映射有时写作 $\mathrm{vec}$ : $\mathrm{vec}(\mathbf{A})=\begin{pmatrix}\mathbf{A}(:,1)\\\mathbf{A}(:,2)\\\vdots\\\mathbf{A}(:,n)\end{pmatrix},\quad\forall\mathbf{A}\in\mathbb{R}^{m\times n}.$ ↩︎
$\mathbb{S}^n$ 关于向量的加法和数乘构成 $\mathbb{R}^{n\times n}$ 的子空间. ↩︎
注我们有时使用 $\max$ 并不代表可以取到, 也就是说我们将 $\max$ 和 $\sup$ 混用. ↩︎
注意对于一般的Banach空间不一定存在这样的一一对应关系. ↩︎

Learner Hu

关注

13
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
First Order Methods in Optimization Ch1. Vector Spaces

第一章向量空间文章目录第一章向量空间1. 定义2. 维数3. 范数4. 内积5. 仿射集和凸集6. 欧式空间7. 实空间$\mathbb{R}^n$7.1 $\mathbb{R}^n$中的特殊集合7.2 $\mathbb{R}^n$中的特殊运算8. 实空间$\mathbb{R}^{m\times n}$8.1 $\mathbb{R}^{n\times n}$中的特殊子集8.2 $\mathb...
复制链接

扫一扫