无处不在的线性分解

最新推荐文章于 2022-01-18 13:04:22 发布

whjxnyzh

最新推荐文章于 2022-01-18 13:04:22 发布

阅读量1.5k

点赞数

分类专栏：奇文共赏文章标签：统计学矩阵数学

奇文共赏专栏收录该内容

33 篇文章 1 订阅

订阅专栏

MIT大牛林达华

深刻的思想往往蕴含在简单的数学形式之中。从小至今，对数学的学习一直不断，所学愈多，愈深感现代数学之博大，自己根基之薄弱。在自己所接触的数学之中，各种定理公式纷繁复杂，然细思之下，其核心思想却是非常简洁，但却广泛地以不同形式体现在各个分支之中。事实上，很多不同的数学分支在用自己本领域的语言阐述着一些共同的数学原理。

有三个基本的思想，在我所学到的数学中被普遍的运用：分解，逼近，变换。

分解(decomposition)，是和合成(Integration)相互相承的。这里所说的分解思想，其实包括了三个阶段：首先，把一个一般对象，分解成简单对象的组合；然后，对每个简单对象分别加以分析和处理；最后把结果合成为对于原对象的结果。在不同的数学分支里面，分解的形式很不一样，后文中再详述。
逼近(approximation)，就是构造简单对象的序列趋近一般对象，并通过这些简单对象的处理和分析结果来逼近一般对象的结果。这种思想在分析(Analysis)主要以极限(limit)的形式存在，是整个分析的根本。在不同的context里面，这种策略的运用有着不同的具体条件和形式，很多时候需要某种形式的一致性(uniformity)来保障结果的正确。比如拓扑学(topology)里面的一致收敛定理(Uniform Convergence Theorem)，测度理论中的单调收敛定理(Monotonic Convergence Theorem)和控制收敛定理(Dominated Convergence Theorem)，概率论中大数定律(Laws of Large Numbers)和分布收敛方面的定理，都体现了这样的思想，而它们则对于各自领域中的函数和各种数学概念的构造起着关键作用。而我们所学的微分，积分，和各种积分变换（比如Fourier Transform)也都建基其上。
变换(transformation)，一般是指通过表达形式的变化，揭示出一个数学构造的本征形式，或者使它更适合于某种处理。在代数中的基变换是我们最常见的一种变换方式，它的涵盖很广，除了初等线性代数中讨论的有限维向量的变换，各种对函数的积分变换（Fourier Transform, Laplace Transform, Wavelet Transform）其实也是在一般的函数空间中的基变换。而这种思想还被运用到了概率论中，得到了一个强大的分布分析工具(Characteristic Function)，这其实就是对分布函数的Fourier Transform。对变换的研究，离不开一个很重要的概念——变换不变性(Invariance)，就是要看看在变换过程中什么是保持不变的，这对于刻画一个变换有着极为重要的意义。

——————————————————————————————

线性分解和线性变换的联系

在这篇文章中，只谈谈对分解（最简单的分解——线性分解）的一些理解。在最基本的线性代数中，我们可以把线性空间中的一个向量分解成某些基向量的合成：

x = c1 e1 + c2 e2 + …

如果施加一个线性变换，那么这个变换的结果，可以通过对每个分量的变换结果组合得到

T(x) = c1 T(e1) + c2 T(e2) + …

这里，我们通过“分解——分别变换——然后合成”的思想来实施这个变换，这有两个需要考虑的要求：

1. 正确性。我们首先需要保证等式左右两边是相等的，事实上这并不是一种必然，它要求T是线性的。从一般的数学意义上说，某种分解策略只适合于某种变换形式，从这个意义上说，分解和变换是相互对应的，在这里，线性分解对应于线性变换。

2. 有利性。等式左边只做一次变换，右边做n次。如果T(e1)和T(x)一样复杂，这纯粹是多此一举。因此，我们希望T(e1), T(e2)是一些更简单的操作，比如只完成一个数乘：T(e1) = a1 * e1。这其实就是特征值分解的一个动机所在。对于某个具体的变换，对应于一个具体的分解（一组具体的基），使得对于每个分量的变换具有简单的形式（在线性空间中就是指数乘了）。

在线性空间中，线性性保证了变换和分解的可交换性，而特征值分解则在正确性的基础上，寻求一种“最优”的分解形式，这种分解形式直接体现了这个变换的本质结构。

这种原理拓展到函数空间，就得到了在工程中广为应用的傅立叶变换(FourierTransform)。它把一个连续函数分解为实空间的正余弦函数或者复空间的((e^(jwx))的组合。以这些函数为基的原因，就是在线性系统对于这种形式的信号只能进行整体的放大缩小，而不能改变信号内部的结构。从数学的角度说，这些基函数是由线性系统所产生的变换的特征函数。一个复杂的信号处理过程，就因此变为对分量信号分别放大，然后叠加。从FourierTransform出发，发展出来了一个很大的数学分支，叫做调和分析(HarmonicAnalysis)，对于函数空间的分解进行深入探讨。

线性分解和方程求解

线性分解和合成也是方程求解的重要工具。在初等线性代数中，有一种简单的方程：T x= 0。如果x1, x2, …, 都是它的解，那么它们的线性组合也是方程的解。因此，整个解集构成了一个向量空间——变换T的零空间，从而，我们可以通过分析这个空间的基来研究整个解空间的结构。

至于更一般的T x = b的形式，可以通过加一个特解的形式获得解集（其实就是解空间的平移）。因而，其对应的齐次方程Tx= 0仍旧是刻画解集结构的根本所在。

这种想法被沿用于微分方程的求解。因为微分其实是一种线性操作，所以，线性微分方程都可以写成 Tx = f 的形式，和简单的线性方程不同的是，这里的 T 是由微分算子合成，而 x 和 f 则存在于函数空间之中。但是，解集结构仍旧是T 的零空间的平移。

一个线性变换的零空间，就是它的零特征值对应的空间。这里需要关注 T 的特征空间的结构，当T 是一个简单的微分算子 d/ dt，它的特征函数 f 应该满足 df / dt = a * x，因此 f(t ) = exp(a * t)。换一句话说，所有如exp(a * t)的指数函数，构成了解空间的基。事实上，这个结论可以继续扩展，exp(a * t)还是高阶微分算子，以及它们的各种线性组合形成的算子的基。

那么我们把一个连续函数沿着这种基分解：f( t ) = c1 *exp(a1 * t) + c2 * exp(a2 * t) + …

解方程得任务，就变成了寻求所有 x(t) = exp(a * t) 使得 T x = 0。这代换到方程里面，就转化为代数方程。因此，对于常系数微分方程的求解，当我们得知exp(a* t)是各阶微分算子的特征函数的时候，把解函数沿着它分解，整个事情就变得一目了然了。这样的思路可以直接从上述的标量函数的微分方程推广到向量函数的微分方程——这也是线性系统理论和控制论的基础。

对于更为复杂的积分方程，算子方程，或者随机微分方程，线性分解依旧是方程求解和解空间刻画的核心工具。

概率分布的分解

概率论的基础是测度理论，而它的基础则是sigma-代数，这是一种关于集合的代数（它的运算就是求集合的并集，交集，补集）。测度是给集合一个数值来表达集合的大小，它的构造也体现了分解的三阶段思路：

1. 分解：把集合分解成不相交的简单集合的并集；

2. 分别处理：计算每个简单集合的测度（这个通常相当容易计算）；

3. 合成：把这些测度加起来构成总测度。

我们用 m(A) 表达集合A的测度，那么我们有

m(A1 U A2 U …) = m(A1) + m(A2) + … (if A1, A2, … disjoint)

这个意思直观理解很朴素：一个东西的大小等于它分成小块后每块的大小之和。上面说到，线性分解对应于线性变换，而这里同样具有一种类似的对应关系：集合的（不相交）分解和测度计算。测度理论的基本公理，就是建立了集合分解和测度计算进行交换的法则。

在概率论里面，最重要的事情之一是求随机变量的期望。如果随机变量在线性空间里面，我们可以对它进行线性分解和合成。另一方面期望满足

E(c1 x1 + c2 x2) = c1 E(x1) + c2 E(x2)

这表明了期望是随机变量的线性算子，或者说期望和随机变量的线性分解是可以交换的。因此，上述的分解思想同样运用于期望的运算当中——事实上，对于一般随机函数的期望（勒贝格积分）的定义的构造，正是实施了分解成简单函数——分别计算期望——汇总合成的三阶段思路。最后，通过单调逼近的极限完成完备的构造过程。

期望是进行勒贝格积分的过程，这个过程需要两个概念的参与：随机变量和测度。integral(f du) 里面，f 是可测函数（随机变量），u 是测度（概率）。如果我们对u进行一些延伸，从非负测度拓展到带符号测度（可正可负），那么 u 也构成了线性空间（事实上，可以进一步严格证明它是巴拿赫空间 (BanachSpace))。而所有的平方可积的随机函数，则构成另外一个线性空间（进一步，它是一个希尔伯特空间(HilbertSpace)）。它们分别都可以进行线性分解。

在概率论中很重要的Lebesgue-Radon-Nikodym定理其实是对测度进行线性分解的一种形式。我们把全部局部有限的带符号测度构成的空间叫M的话，那么给定一个局部有限测度u，所有对于u绝对连续(Absolutely continuous)的测度自己构成了M的一个子空间，而它的一个补空间则是由相对于u的奇异测度所组成，Lebesgue-Radon-Nikodym分解，则是把一个测度v分解成在这两个子空间中的分量。这种分解形式，对于连续和离散的混成概率有着重要价值。

在传统的概率应用中，我们有一个对象空间，然后在上面建立一个分布模型，然后我们有很多具体的方法去处理。但是，我们如果站在一个不同的角度看待这个问题：所有概率分布构成一个空间，空间中每一个点是一个分布。那么，我们看待一些问题的时候会有不同的高度。在统计学习里面有一个经典的参数估计方法叫最大似然估计(MaximumLikelihood Estimation)，它其实做了一件什么事情呢？就是在上面说的分布的空间中，把由observation所建立的经验分布(empirical distribution）向由某类型分布所组成的流形的投影——这是信息几何(InformationGeometry)的最基本的概念。

随机变量的分解

除了对概率进行分解之外，随机变量的分解也有广泛运用，而且通过这种分解建立了概率模型和线性系统的联系。很重要的一个应用就是MarkovProcess，当初始分布决定之后，概率分布随着时间的演变过程就确定了。如果，我们对初始分布沿着概率传递函数的特征基分解，我们可以获得对整个过程的一个宏观的观察。对应于特征值为1的那个分量一直保持到最后，成为稳态分布；其它分量，会随着时间衰减。其实，这整个过程在数学上所遵循的方程，就是一个线性差分方程（对于离散事件马尔可夫链）或者线性微分方程（对于连续时间马尔可夫过程），这和控制论中研究信号的方程如出一辙。如果我们把分布演变的过程视为信号的变化过程，那么两者的分析可以相互类比。当它们联系起来后，随机过程的学者和控制论的学者的交流可以启发新的思考角度。

在传统微积分里面，我们描述微分的时候，是把一个实数轴分解成很多微小的段。在数学里面，一个重要的学科叫StochasticCalculus，研究的是随机过程的微分，这需要把随机过程分解成小段。我们希望每个小段的分布形式和整体是一致的，而具有这种特性的分布叫做infinitelydivisible。这是研究随机微积分和随机微分方程的重要基础。而我们熟知的高斯分布和泊松分布都具有这样的形式。如果一个随机过程，它对时间的导数符合高斯分布，那么这个过程有一个我们熟悉的名字——布朗运动（Brownian Motion），这是最简单的随机微分方程——也是研究更复杂的随机方程的基础。Stochastic Calculus在金融学用的很多，而在Vision里面颇为少见——事实上，它对于不确定过程的强大表达能力，正好适合对于视觉里面许多充满不确定的过程进行建模。

——————————————————————————————

分解是数学世界里面最重要的思想之一，而线性分解是其中最核心的分解方式。在不同的数学分支中，线性分解把线性空间的元素按照基来分解，在不同的数学分支中，基有着不同的形式，适用于不同的变换：