第二十二课时:对角化和A 的幂
本讲主要讲:Ax=λx,特征值、特征向量的应用以及为什么需要特征值和特征向量。
1.对角化矩阵
1.1 对角化的定义
上一讲我们提到关键方程
Ax=λx
,通过
det(A−λI)=0
得到特征向量
λ
,再带回关键方程算出特征向量
x
。
在得到特征值与特征向量后,该如何使用它们?我们可以利用特征向量来对角化给定矩阵。
有矩阵
将
A 对角化:
S−1AS=Λ(1)注意到公式中有 S−1 ,也就是说特征向量矩阵 S 必须是可逆的,于是我们需要
n 个线性无关的特征向量。现在,假设 A 有
n 个线性无关的特征向量,将它们按列组成特征向量矩阵 S ,则AS=A[x1x2⋯xn] ,当我们分开做矩阵与每一列相乘的运算时,易看出 Ax1 就是矩阵与自己的特征向量相乘,其结果应该等于 λ1x1 。那么 AS=[(λ1x1)(λ2x2)⋯(λnxn)] 。可以进一步化简原式,使用右乘向量按列操作矩阵的方法,将特征值从矩阵中提出来,得到
[x1x2⋯xn]⎡⎣⎢⎢⎢⎢⎢λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎤⎦⎥⎥⎥⎥⎥=SΛ 。
于是我们看到,从 AS 出发,得到了 SΛ ,特征向量矩阵又一次出现了,后面接着的是一个对角矩阵,即特征值矩阵。这样,再继续左乘 S−1 就得到了公式 (1) 。当然,所以运算的前提条件是特征向量矩阵 S 可逆,即矩阵A 有 n 个线性无关的特征向量。这个式子还要另一种写法,A=SΛS−1 。矩阵分解的三种方法
1. 矩阵的对角化:
S−1AS=Λ;
2.矩阵消元法中的 A=LU 矩阵分解;
3.格拉姆-施密特正交化中的 A=QR 矩阵。1.2 哪些矩阵可以对角化?
当矩阵A没有重复的特征值,矩阵 A 必有
n 个线性无关的特征向量,则称 A 可以对角化(diagonalizable);
如果存在重复的特征值,那么我们就需要做额外的检查,就是说上面的条件是充分非必要条件。例如:
1)单位阵的特征值为重特征值1 ,但是其具有 n 个线性无关的特征向量。举二阶单位矩阵为例,因为特征向量在 (A−λI) 的零空间中,满足 (A−λI)x=[0000]x=0 。可看出零空间有两维,所以具有两个线性无关的特征向量 [10] 和 [01] 。其实,若 A 为对角矩阵,A=S−1AS=Λ=A , A 的特征值就是A 的对角线元素。2) 对于 A=[2012] 的三角矩阵,特侦值就是矩阵对角线上的元素2,其特征向量在 A−λI 的零空间中,满足 (A−λI)x=[0010]=0 ,求解可得 x=[10] ,而没第二个特征向量。因为 (A−λI) 的零空间只有一维, A 不可对角化。
2.特征值和特征向量的应用
2.1 矩阵的幂
此处我们重点关注可对角化的情况,我们来看如何应用这个公式,比如说要计算
A2 。
先从 Ax=λx 开始,如果两边同乘以 A ,有A2x=λAx=λ2x 。
再从 A=SΛS−1 开始推导,则有 A2=SΛS−1SΛS−1=SΛ2S−1 。同样得到特征值取平方,特征向量不变。,于是得出结论:对于矩阵 Ak ,其特征值也会取平方 Λk ,而特征向量不变。
两种方法描述的是同一个现象,即对于矩阵幂运算 A2 ,其特征向量不变,而特征值做同样的幂运算。对角矩阵
Λ2=⎡⎣⎢⎢⎢⎢⎢λ210⋮00λ22⋮0⋯⋯⋱⋯00⋮λ2n⎤⎦⎥⎥⎥⎥⎥.
特征值和特征向量给我们了一个深入理解矩阵幂运算的方法, Ak=SΛkS−1 。当 A 的所有特征值 |λi|<1 时,从 SΛkS−1 易得 k→∞ ,则 Ak→0 (趋于稳定),这样的矩阵称作稳定矩阵。
2.2 一阶差分方程
求 uk+1=Auk
下一讲涉及微分方程(differential equation),会有求导的内容,本讲先引入简单的差分方程(difference equation)。本例是一个一阶差分方程组(first order system)。即:从 u1=Au0 开始, u2=A2u0 ,所有 uk=Aku0 。
要解此方程,需要将 u0 展开为矩阵 A 特征向量的线性组合,即
u0=c1x1+c2x2+⋯+cnxn=[x1x2⋯xn]⎡⎣⎢⎢⎢⎢c1c2⋮cn⎤⎦⎥⎥⎥⎥=Sc 。
于是 Au0=c1Ax1+c2Ax2+⋯+cnAxn=c1λ1x1+c2λ2x2+⋯+cnλnxn 。继续化简原式,
Au0=[x1x2⋯xn]⎡⎣⎢⎢⎢⎢⎢λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢c1c2⋮cn⎤⎦⎥⎥⎥⎥=SΛc.
用矩阵的方式同样可以得到该式: Au0=SΛS−1u0=SΛS−1Sc=SΛc 。
那么如果我们要求 A100u0 ,则只需要将 λ 变为 λ100 ,而系数 c 与特征向量x 均不变。
当我们真的要计算 A100u0 时,就可以使用 SΛ100c=c1λ1001x1+c2λ1002x2+⋯+cnλ100nxn 。2.3 斐波那契数列(Fibonacci sequence)
斐波那契数列是: 0,1,1,2,3,5,8,13,⋯,F100=? ,我们要求第一百项的公式,并观察这个数列是如何增长的。
可以想象这个数列并不是稳定数列,因此无论如何该矩阵的特征值并不都小于一,这样才能保持增长。而他的增长速度,则有特征值来决定。
已知 Fk+2=Fk1+Fk ,但这不是 uk+1=Auk 的形式,而且我们只要一个方程,而不是方程组,同时这是一个二阶差分方程(就像含有二阶导数的微分方程,希望能够化简为一阶倒数,也就是一阶差分)。求解问题:
1) 使用一个小技巧,令 uk=[Fk+1Fk] ,再追加一个方程组成方程组: {Fk+2Fk+1=Fk+1+Fk=Fk+1 ,再把方程组用矩阵表达得到 [Fk+2Fk+1]=[1110][Fk+1Fk] ,于是我们得到了 uk+1=Auk,A=[1110] 。我们把二阶标量方程(second-order scalar problem)转化为一阶向量方程组(first-order system)。2)我们的矩阵 A=[1110] 是一个对称矩阵,所以它的特征值将会是实数,且他的特征向量将会互相正交。因为是二阶,我们可以直接利用迹与行列式解方程组 {λ1+λ2λ1⋅λ2=1=−1 。在求解之前,我们先写出一般解法并观察 |A−λI|=∣∣∣1−λ11−λ∣∣∣=λ2−λ−1=0 ,与前面斐波那契数列的递归式 Fk+2=Fk+1+Fk→Fk+2−Fk+1−Fk=0 比较,我们发现这两个式子在项数与幂次上非常相近。
用求根公式解特征值得 {λ1=12(1+5√)≈1.618λ2=12(1−5√)≈−0.618 ,得到两个不同的特征值,一定会有两个线性无关的特征向量,则该矩阵可以被对角化。
我们先来观察这个数列是如何增长的,数列增长由什么来控制?——特征值。哪一个特征值起决定性作用?——较大的一个。
F100=c1(1+5√2)100+c2(1−5√2)100≈c1(1+5√2)100 ,由于 −0.618 在幂增长中趋近于 0 ,所以近似的忽略该项,剩下较大的项,我们可以说数量增长的速度大约是1.618 。可以看出,这种问题与求解 Ax=b 不同,这是一个动态的问题, A 的幂在不停的增长,而问题的关键就是这些特征值。3)继续求解特征向量,
A−λI=[1−λ11−λ] ,因为有根式且矩阵只有二阶,我们直接观察 [1−λ11−λ][??]=0 ,由于 A−λI 是奇异矩阵,所以 A−λI 的零空间有非零向量,则
[1−λ11−λ][λ1]=[λ(1−λ)+1λ−λ]=[00]
即 λ2−λ−1=0 ,则其特征向量为 [λ1] ,即 x1=[λ11],x2=[λ21] 。
最后,计算初始项 u0=[F1F0]=[10] ,现在将初始项用特征向量表示出来 [10]=c1x1+c2x2 ,计算系数得 c1=5√5,c2=−5√5 。回顾整个问题 对于动态增长的一阶方程组,初始向量是 u0 ,关键在于确定 A 的特征值及特征向量。特征值将决定增长的趋势,发散至无穷还是收敛于某个值。接下来需要找到一个展开式,把
u0 展开成特征向量的线性组合。
再下来就是套用公式,即 A 的k 次方表达式 Ak=SΛkS−1 ,则有 u99=Au98=⋯=A99u0=SΛ99S−1Sc=SΛ99c ,代入特征值、特征向量得:
u99=[F100F99]=[1+5√211−5√21]⎡⎣⎢⎢(1+5√2)9900(1−5√2)99⎤⎦⎥⎥⎡⎣5√5−5√5⎤⎦=[c1λ1001+c2λ1002c1λ991+c2λ992] .
最终结果为 F100=c1λ1001+c2λ1002 。
原式的通解为 uk=c1λkx1+c2λkx2 。下一讲将介绍求解微分方程。
3.总结
1. A 对角化:
S−1AS=Λ 1.1
矩阵分解的三种方法 :
1. 矩阵的对角化: S−1AS=Λ;
2.矩阵消元法中的 A=LU 矩阵分解;
3.格拉姆-施密特正交化中的 A=QR 矩阵。1.2
哪些矩阵可以对角化 :
1.当矩阵A没有重复的特征值,矩阵 A 必有n 个线性无关的特征向量,则称 A 可以对角化(diagonalizable);
2.如果存在重复的特征值,那么我们就需要做额外的检查,就是说上面的条件是充分非必要条件。2.特征值和特征向量的应用
2.1 矩阵的幂1.对于矩阵
Ak ,其特征值也会取平方 Λk ,而特征向量不变。
2.当 A 的所有特征值 |λi|<1 时,从 SΛkS−1 易得 k→∞ ,则 Ak→0 (趋于稳定),这样的矩阵称作稳定矩阵。2.2一阶差分方程(求 uk+1=Auk )和斐波那契数列(Fibonacci sequence)。
第二十三课时:微分方程和 eAt
1.微分方程 dudt=Au
本讲主要讲解解一阶方程(first-order system)一阶倒数(first derivative)常系数(constant coefficient)线性方程,上一讲介绍了如何计算矩阵的幂,本讲将进一步涉及矩阵的指数形式。我们通过解2个例子来详细介绍计算方法。
1.1 例子1
两个关于时间的方程组 ⎧⎩⎨du1dtdu2dt=−u1+2u2=u1−2u2 ,则系数矩阵是 A=[−112−2] ,设初始条件为在 0 时刻
u(0)=[u1u2]=[10] 。
这个初始条件的意义可以看做在开始时一切都在 u1 中,但随着时间的推移,将有 du2dt>0 ,因为 u1 项初始为正, u1 中的事物会流向 u2 。随着时间的发展我们可以追踪流动的变化。根据上一讲所学的知识,我们知道第一步需要找到特征值与特征向量。 A=[−112−2] ,很明显这是一个奇异矩阵,所以第一个特征值是 λ1=0 ,另一个特征向量可以从迹得到 tr(A)=−3 。当然我们也可以用一般方法计算 |A−λI|=∣∣∣−1−λ12−2−λ∣∣∣=λ2+3λ=0 。
(教授提前剧透,特征值 λ2=−3 将会逐渐消失,因为答案中将会有一项为 e−3t ,该项会随着时间的推移趋近于 0 。答案的另一部分将有一项为
e0t ,该项是一个常数,其值为 1 ,并不随时间而改变。通常含有0 特征值的矩阵会随着时间的推移达到稳态。)求特征向量, λ1=0 时,即求 A 的零空间,很明显
x1=[21] ; λ2=−3 时,求 A+3I 的零空间, [2121] 的零空间为 x2=[1−1] 。则方程组的通解为: u(t)=c1eλ1tx1+c2eλ2tx2 ,通解的前后两部分都是该方程组的纯解,即方程组的通解就是两个与特征值、特征向量相关的纯解的线性组合。我们来验证一下,比如取 u=eλ1tx1 带入 dudt=Au ,对时间求导得到 λ1eλ1tx1=Aeλ1tx1 ,化简得 λ1x1=Ax1 。
对比上一讲,解 uk+1=Auk 时得到 uk=c1λkx1+c2λkx2 ,而解 dudt=Au 我们得到 u(t)=c1eλ1tx1+c2eλ2tx2 。
继续求 c1,c2 , u(t)=c1⋅1⋅[21]+c2⋅e−3t⋅[1−1] ,已知 t=0 时, [10]=c1[21]+c2[1−1] ( Sc=u(0) ),所以 c1=13,c2=13 。
于是我们写出最终结果, u(t)=13[21]+13e−3t[1−1] 。稳定性:这个流动过程从 u(0)=[10] 开始,初始值 1 的一部分流入初始值
0 中,经过无限的时间最终达到稳态 u(∞)=[2313] 。所以,要使得 u(t)→0 ,则需要负的特征值。
但如果特征值为复数呢?如 λ=−3+6i ,我们来计算 ∣∣e(−3+6i)t∣∣ ,其中的 ∣∣e6it∣∣ 部分为 |cos6t+isin6t|=1 ,因为这部分的模为 cos2α+sin2α=1 ,这个虚部就在单位圆上转悠。所以只有实数部分才是重要的。
所以我们可以把前面的结论改为需要实部为负数的特征值。实部会决定最终结果趋近于 0 或∞ ,虚部不过是一些小杂音。收敛态:需要其中一个特征值实部为 0 ,而其他特征值的实部皆小于
0 。发散态:如果某个特征值实部大于 0 。上面的例子中,如果将
A 变为 −A ,特征值也会变号,结果发散。再进一步,我们想知道如何从直接判断任意二阶矩阵的特征值是否均小于零。对于二阶矩阵 A=[acbd] ,矩阵的迹为 a+d=λ1+λ2 ,如果矩阵稳定,则迹应为负数。但是这个条件还不够,有反例迹小于 0 依然发散:
[−2001] ,迹为 −1 但是仍然发散。还需要加上一个条件,因为 detA=λ1⋅λ2 ,所以还需要行列式为正数。即:如果矩阵稳定,则迹应为负数;且行列式为正数。( λ1+λ2<0,λ1⋅λ2>0 )
总结:
原方程组有两个相互耦合的未知函数, u1,u2 相互耦合,矩阵 A 表明u1,u2 相互耦合,而特征值和特征向量的作则就是解耦,也就是对角化(diagonalize)。(实际上能把这个解表示成 S 和Λ 的形式)回到原方程组 dudt=Au ,将 u 表示为特征向量的线性组合
u=Sv ( S 是特征向量矩阵,以特征向量为基),代入原方程有Sdvdt=ASv ,两边同乘以 S−1 得 dvdt=S−1ASv=Λv 。以特征向量为基,将 u 表示为Sv ,得到关于 v 的对角化方程组,新方程组不存在耦合,此时⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪dv1dtdv2dt⋮dvndt=λ1v1=λ2v2⋮=λnvn ,这是一个各未知函数间没有联系的方程组,它们的解的一般形式为 v(t)=eΛtv(0) ,则原方程组的解的一般形式为 u(t)=eAtu(0)=SeΛtS−1u(0) 。这里引入了指数部分为矩阵的形式。2.指数矩阵 eAt
2.1证明 SeΛtS−1=eAt
在上面的结论中,我们见到了 eAt 。这种指数部分带有矩阵的情况称为指数矩阵(exponential matrix)。
理解指数矩阵的关键在于,将指数形式展开称为幂基数形式,就像 ex=1+x22+x36+⋯ 一样,将 eAt 展开成幂级数的形式为:
eAt=I+At+(At)22+(At)36+⋯+(At)nn!+⋯(1)再说些题外话,有两个极具美感的泰勒级数:
1. ex=∑xnn! ;
2. 11−x=∑xn 。分析:
1. 如果把第二个泰勒级数(2.)写成指数矩阵形式,有 (I−At)−1=I+At+(At)2+(At)3+⋯ ,这个式子只有在 t 非常小的时候,后面的高次项近似等于零,所以可以用来近似I−At 的逆矩阵,通常近似为 I+At ,当然也可以再加几项。
2. 第一个级数(1.)对我们而言比第二个级数(2.)好,因为第一个级数总会收敛于某个值,所以 ex 总会有意义,而第二个级数需要 A 特征值的绝对值小于1 (因为涉及矩阵的幂运算)。我们看到这些泰勒级数的公式对矩阵同样适用。
回到正题,我们需要证明 SeΛtS−1=eAt ,继续使用泰勒级数:
eAt=I+At+(At)22+(At)36+⋯+(At)nn!+⋯eAt=SS−1+SΛS−1t+SΛ2S−12t2+SΛ3S−16t3+⋯+SΛnS−1n!tn+⋯eAt=S(I+Λt+Λ2t22+Λ3t33+⋯+Λntnn+⋯)S−1eAt=SeΛtS−1
需要注意的是: eAt 的泰勒级数展开是恒成立的,但我们推出的版本却需要矩阵可对角化这个前提条件。2.2 eΛt 的特性
最后,我们来看看什么是 eΛt :
1.我们将 eAt 变为对角矩阵就是因为对角矩阵简单、没有耦合, eΛt=⎡⎣⎢⎢⎢⎢⎢eλ1t0⋮00eλ2t⋮0⋯⋯⋱⋯00⋮eλnt⎤⎦⎥⎥⎥⎥⎥ 。
有了 u(t)=SeΛtS−1u(0) ,再来看矩阵的稳定性可知,所有特征值的实部均为负数时矩阵收敛,此时对角线上的指数收敛为 0 。
2.如果我们画出复平面,则要使微分方程存在稳定解,则特征值存在于复平面的左侧(即实部为负);要使矩阵的幂收敛于0 ,则特征值存在于单位圆内部(即模小于 1 ),这是幂稳定区域。(上一讲的差分方程需要计算矩阵的幂。)2.3 微分方程的推广
同差分方程一样,我们来看二阶情况如何计算,有
y′′+by′+k=0 。我们也模仿差分方程的情形,构造方程组 {y′′y′=−by′−ky=y′ ,写成矩阵形式有 [y′′y′]=[−b1−k0][y′y] ,令 u′=[y′′y′], u=[y′y] 。
继续推广,对于 5 阶微分方程y′′′′′+by′′′′+cy′′′+dy′′+ey′+f=0 ,则可以写作 ⎡⎣⎢⎢⎢⎢⎢⎢y′′′′′y′′′′y′′′y′′y′⎤⎦⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢−b1000−c0100−d0010−e0001−f0000⎤⎦⎥⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢⎢⎢y′′′′y′′′y′′y′y⎤⎦⎥⎥⎥⎥⎥⎥ ,这样我们就把一个五阶微分方程化为 5×5 一阶方程组了,然后就是求特征值、特征向量了步骤了。3. 本章总结
- 微分方程 dudt=Au 的求解,以及其稳定性、收敛性和发散性的证明。
- u(t)=eAtu(0)=SeΛtS−1u(0) 的推导过程;微分方程的推广。
- SeΛtS−1=eAt 及 eAt 的性质。
第二十四讲:马尔科夫矩阵、傅里叶级数
1.马尔科夫矩阵
1.1马尔可夫矩阵的定义
马尔科夫矩阵(Markov matrix)是指具有以下两个特性的矩阵:
马尔科夫矩阵(Markov matrix)的定义:
1.矩阵中的所有元素大于等于 0 ;(因为马尔科夫矩阵与概率有关,而概率是非负的。)
2.每一列的元素之和为1 。对于马尔科夫矩阵,我们关心幂运算过程中的稳态(steady state)。与上一讲不同,指数矩阵关系特征值是否为 0 ,而幂运算要达到稳态需要特征值为
1 。
根据上面两条性质,我们可以得出两个推论:马尔可夫矩阵的性质:
1.马尔科夫矩阵必有特征值为 1 ;
2.其他的特征值的绝对值皆小于1 。使用第二十二讲中得到的公式进行幂运算 uk=Aku0=SΛkS−1u0=SΛkS−1Sc=SΛkc=c1λk1x1+c2λk2x2+⋯+cnλknxn ,从这个公式很容易看出幂运算的稳态。比如我们取 λ1=1 ,其他的特征值绝对值均小于 1 ,于是在经过
k 次迭代,随着时间的推移,其他项都趋近于 0 ,于是在k→∞ 时,有稳态 uk=c1x1 ,这也就是初始条件 u0 的第 1 个分量。1.2稳定性证明
我们来证明第一个推论,取
A=⎡⎣⎢0.10.20.70.010.9900.30.30.4⎤⎦⎥ ,则 A−I=⎡⎣⎢−0.90.20.70.01−0.0100.30.3−0.6⎤⎦⎥ 。观察 A−I 易知其列向量中元素之和均为 0 ,因为马尔科夫矩阵的性质就是各列向量元素之和为1 ,现在我们从每一列中减去了 1 ,所以这是很自然的结果。而如果列向量中元素和为0 ,则矩阵的任意行都可以用“零减去其他行之和”表示出来,即该矩阵的行向量线性相关。
用以前学过的子空间的知识描述,当 n 阶方阵各列向量元素之和皆为1 时,则有 ⎡⎣⎢⎢⎢⎢11⋮1⎤⎦⎥⎥⎥⎥ 在矩阵 A−I 左零空间中,即 (A−I)T 行向量线性相关。而 A 特征值1 所对应的特征向量将在 A−I 的零空间中,因为 Ax=x→(A−I)x=0 。
另外,特征值具有这样一个性质:矩阵与其转置的特征值相同。因为我们在行列式一讲了解了性质10,矩阵与其转置的行列式相同,那么如果 det(A−λI)=0 ,则有 det(A−λI)T=0 ,根据矩阵转置的性质有 det(AT−λIT)=0 ,即 det(AT−λI)=0 。这正是 AT 特征值的计算式。
然后计算特征值 λ1=1 所对应的特征向量, (A−I)x1=0 ,得出 x1=⎡⎣⎢0.6330.7⎤⎦⎥ ,特征向量中的元素皆为正。1.3 马尔可夫矩阵的应用
接下来介绍马尔科夫矩阵的应用,我们用麻省和加州这两个州的人口迁移为例:
[ucalumass]k+1=[0.90.10.20.8][ucalumass]k ,元素非负,列和为一。这个式子表示每年有 10 的人口从加州迁往麻省,同时有 20 的人口从麻省迁往加州。注意使用马尔科夫矩阵的前提条件是随着时间的推移,矩阵始终不变。
设初始情况 [ucalumass]0=[01000] ,我们先来看第一次迁徙后人口的变化情况: [ucalumass]1=[0.90.10.20.8][01000]=[200800] ,随着时间的推移,会有越来越多的麻省人迁往加州,而同时又会有部分加州人迁往麻省。计算特征值:我们知道马尔科夫矩阵的一个特征值为 λ1=1 ,则另一个特征值可以直接从迹算出 λ2=0.7 。
计算特征向量:带入 λ1=1 求 A−I 的零空间有 [−0.10.10.2−0.2] ,则 x1=[21] ,此时我们已经可以得出无穷步后稳态下的结果了。 u∞=c1[21] 且人口总数始终为 1000 ,则 c1=10003 ,稳态时 [ucalumass]∞=[2000310003] 。注意到特征值为 1 的特征向量元素皆为正。
为了求每一步的结果,我们必须解出所有特征向量。带入
λ2=0.7 求 A−0.7I 的零空间有 [0.20.10.20.1] ,则 x2=[−11] 。
通过 u0 解出 c1,c2 , uk=c11k[21]+c20.7k[−11] ,带入 k=0 得 u0=[01000]=c1[21]+c2[−11] ,解出 c1=10003,c2=20003 。
另外,有时人们更喜欢用行向量,此时将要使用行向量乘以矩阵,其行向量各分量之和为 1 。2.傅里叶级数
2.1 傅里叶级数的引出及定义
在介绍傅里叶级数(Fourier series)之前,先来回顾一下投影。
设q1,q2,⋯qn 为一组标准正交基,则向量 v 在该标准正交基上的展开为v=x1q1+x2q2+⋯+xnqn ,此时我们想要得到各系数 xi 的值。比如求 x1 的值,我们自然想要消掉除 x1q1 外的其他项,这时只需要等式两边同乘以 qT1 ,因为的 qi 向量相互正交且长度为 1 ,则qTiqj=0,q2i=1 所以原式变为 qT1v=x1 。
写为矩阵形式有 [q1 q2 ⋯ qn]⎡⎣⎢⎢⎢⎢x1x2⋮xn⎤⎦⎥⎥⎥⎥=v ,即 Qx=v 。所以有 x=Q−1v ,而在第十七讲我们了解到标准正交基有 QT=Q−1 ,所以我们不需要计算逆矩阵可直接得出 x=QTv 。此时对于 x 的每一个分量有xi=qTiv 。
接下来介绍傅里叶级数。先写出傅里叶级数的展开式:
f(x)=a0+a1cosx+b1sinx+a2cos2x+b2sin2x+⋯
傅里叶发现,如同将向量 v 展开(投影)到向量空间的一组标准正交基中,在函数空间中,我们也可以做类似的展开。将函数f(x) 投影在一系列相互正交的函数中。函数空间中的 f(x) 就是向量空间中的 v ;函数空间中的1,cosx,sinx,cos2x,sin2x,⋯ 就是向量空间中的 q1,q2,⋯,qn ;不同的是,函数空间是无限维的而我们以前接触到的向量空间通常是有限维的。2.2 各个基系数的求解
再来介绍何为“函数正交”。对于向量正交我们通常使用两向量内积(点乘)为零判断。我们知道对于向量 v,w 的内积为 vTw=v1w1+v2w2+⋯+vnwn=0 ,也就是向量的每个分量之积再求和。而对于函数 f(x)⋅g(x) 内积,同样的,我们需要计算两个函数的每个值之积而后求和,由于函数取值是连续的,所以函数内积为:
fTg=∫f(x)g(x)dx
在本例中,由于傅里叶级数使用正余弦函数,它们的周期都可以算作 2π ,所以本例的函数点积可以写作 fTg=∫2π0f(x)g(x)dx 。我来检验一个内积 ∫2π0sinxcosxdx=12sin2x∣∣2π0=0 ,其余的三角函数族正交性结果可以参考傅里叶级数的“希尔伯特空间的解读”一节。
最后我们来看 cosx 项的系数是多少( a0 是 f(x) 的平均值)。同向量空间中的情形一样,我们在等式两边同时做 cosx 的内积,原式变为 ∫2π0f(x)cosxdx=a1∫2π0cos2xdx ,因为正交性等式右边仅有 cosx 项不为零。进一步化简得 a1π=∫2π0f(x)cosxdx→a1=1π∫2π0f(x)cosxdx 。
于是,我们把函数 f(x) 展开到了函数空间的一组标准正交基上。3. 本章总结
1.马尔科夫矩阵
马尔科夫矩阵(Markov matrix)的定义:
1.矩阵中的所有元素大于等于 0 ;(因为马尔科夫矩阵与概率有关,而概率是非负的。)
2.每一列的元素之和为1 。马尔可夫矩阵的性质:
1.马尔科夫矩阵必有特征值为 1 ;
2.其他的特征值的绝对值皆小于1 。2.傅立叶级数