Notes for Linear Algebra @MIT

凌枫Alex

已于 2024-12-11 14:36:54 修改

阅读量580

点赞数 12

CC 4.0 BY-SA版权

文章标签：数据挖掘

于 2024-12-11 14:28:15 首次发布

本文链接：https://blog.csdn.net/Michaelhappy/article/details/144400197

Chapter 1 Introduction to Vectors

主要是一些基本的向量相加，相乘的运算规则，最重要的就是linear combination的概念。

Chapter 2 Solving Linear Equations

2.1 Vector and Linear Equations

方程组可以用(1) Row Picture (2) Column Picture (3)Matrix 表示

其中Row Picture其实直接就是原线性方程组，它的解可视为空间中的平面的交点

Column Picture 的解可视为找到一个满足原有列向量的linear combination的一组特定的系数

矩阵乘积和Row Picture与Column Picture写法是等价的。

主要用Column Picture比较直观

2.2 The Idea of Elimination

主要讲消元法的步骤。

解线性方程组的基本方法是消元法。基本步骤就是通过 (1)乘上系数或者交换方程，将原方程组化简为上三角的形式，而方程组的解并不改变。注意n个方程需要有n个用于消元的Pivot，也就是系数。(2)得到三角形式后，再back substitution就解出的方程的解。

2.3 Elimination Using Matrices

主要讲了2.2节解方程组的消元法该如何用矩阵表示来进行操作，也即如何用矩阵表示消元，如何用矩阵表示交换行次序。目的就是为了说明通过矩阵的形式，一样可以将原方程组的消元成上三角阵的过程表示出来。

首先介绍了消去阵elimination matrix E。E在单位阵I的基础上进行修改，E21就是对于A的第二行减去a倍的第一行的数。E31就是对A的第三行减去b倍第一行的数。E23就是对A的第三行减去c倍第二行的数。

交换阵permutation matrix P就更加简单了，P就是单位阵I进行行交换，想要哪一行和哪一行换就将I的相应的行交换。

最后可用方程PE[A b]来对原方程组进行消元过程的模拟。

中间还交代了一下矩阵运算的结合律和不可交换律。

2.4 Rules for Matrix Operations

主要交待了矩阵加法与乘法的运算规则，重点在矩阵的乘法。

矩阵加法就是对应元素相加，没什么好说的。

矩阵的乘法可以从4个不同的角度来看，以AB为例：

column picture：矩阵A乘以B的每一列
row picture: A的每一行乘以矩阵B
row-column picture: A的每一行乘以B的每一列，得到的是一个元素，称为向量内积
column-row picture: A的每一列乘以B的每一行，得到的是一个矩阵，称为向量外积

n×n矩阵相乘的次数，一般为n3次方，采用分块的办法，可以减少到n2.376次方

AB同样可以采用分块计算，计算结果不变，但是要注意对应位置上的矩阵大小应该一致，同时顺序不要改变。一个特例就是column-row picture，A分块为很多列，B分块为很多行。

最后的例题练习了矩阵相乘的计算

2.5 Inverse Matrices

主要讲述了矩阵的逆存在的条件，以及消元法求逆矩阵

首先，一个矩阵什么时候有逆？常用的判断准则有6条，常用的有两条：1. 矩阵的行列式不为0。2. 矩阵有n个消元的系数（pivot）

求矩阵的逆通常采用构造augment matrix求解Ainv(A)=I的解。本质上就是消元法。所以若要方程可解，则A必须有n个pivot，将A化为I，则augment matrix右边I的部分自动得到inv(A)。从这里也可以看出，矩阵有逆和矩阵有n个pivot是等价的。

2.6 Elimination = Factorization: A = LU

主要讲解如何对矩阵的因式分解。

这里的矩阵因式分解是指将矩阵在不交换行的情况下分解为一个上三角阵和一个下三角阵，也就是L和U。分解的步骤本质上就是消元的步骤，L其实就是各次消元矩阵E的逆，所以说因式分解本质上和消元是等价的，会不会很快因式分解也就是看会不会很快应用消元。

在计算机中求解矩阵方程，消去过程被保存在因式分解的L和U中，然后分为两步求解。注意方程两边的计算复杂度是不同的。消去过程是n3的复杂度，而右边是n2的复杂度。

联系到前面已经讲过的解法，解一个方程，可以直接应用消元法，可以求逆矩阵，可以因式分解两部求解，后面两种的本质上都是消元法，万变不离其宗。

2.7 Transposes and Permutations

矩阵转置的基本规则，这个没什么说的。

对称矩阵的性质：转置后仍为对称矩阵，求逆后仍为对称矩阵。对称矩阵进行LDU分解时，U=inv(L)。同时，有一些矩阵组一定是对称矩阵：R®t, ®tR。

permutation matrix交换矩阵由单位矩阵派生而来，能够交换矩阵的行。交换矩阵有两个重要的性质：1. 单行交换矩阵是其自身的逆矩阵 2.inv§=trans§。交换矩阵可以应用在LU分解中，使得PA成为无需交换行的矩阵，然后可以进行LU因式分解。

Chapter 2 小结：
求解线性方程组归根到底使用的是消元法。逆矩阵，因式分解，交换矩阵，消去矩阵等，均可视为消元法的一种用矩阵语言的表示。这些逆矩阵，因式分解能够存在或者进行下去的前提，都是方程组有唯一解，也就是有n个pivot用来消去。

Chapter 3 Vector Spaces and Subspaces

3.1 Spaces of Vectors

主要讲了Space和Subspace的概念。

这里的vector是一种抽象意义上的“分量”，类似于C++中的vector,其中的类型可以是一般意义下的向量，可以是矩阵，也可以是函数。一个方程组的Ax可以视为一系列column vector的组合。

space表示的是在所有该类型的数据通过任意组合所得到的一个集合，强调的是任何该类型的数据都在这个空间中。同时其中的数据均满足8个性质。比如R3是实数的三维空间，那么只要是三个维度的实向量就一定在这个空间中。

subspace指的是在space中选取出一部分数据集，这一部分数据集自身对线性运算是封闭的，也即这一部分的数据集合无论做什么样的线性运算，所得到的结果仍然在这一部分数据集中。注意子空间一定要过原点，才能保证对线性运算封闭。比如三维空间中过原点的一个平面，就是三维空间的一个子集。subspace中的数据本身仍然属于space，也满足8条性质。

每个space都有的两个subspace：1. space本身，2. 零向量

方程Ax=b是否可解，其实就是看b是否落在由Ax构成的这个子空间中。若落在Ax的子空间中，则解x就是一系列column vector的系数。

3.2 The Nullspace of A: Solving Ax=0

Ax=0的所有解构成了A的nullspace，记为N(A)。若A是一个m×n的矩阵，则N(A)是Rn的一个subspace。

N(A)需要用其空间中的一些向量的线性组合来表示。可以将A进行消元，然后找出其消元后的矩阵U，或者是R，reduced echelon matrix。N(A)=N(U)=N®。注意不是所有的列都有pivot，对于那些没有pivot的列，它们是free的，给出的解是special solution，意思就是对于这几个列向量，我也不知道取什么数作为解好，有好几种组合，换句话说就是约束不够，所以就很“special”的取了一个数做为解了。定下了那些“自由”的数，原先确定的数也可以定下来。

如果A的列比行来的多，那么可以确定Ax=0的解空间至少有n-m个free variables，也就是至少有n-m个special solution。从直观上看，变量比方程数来的多，肯定有一部分解的系数是没法确定的。

至于pivot的数目，A的独立column数量，A是否可逆，nullspace是否有非零解，nullspace的free varibles的个数…这些问题都是相互联系的，至于它们之间有什么内在联系，为什么有这些联系，有待继续看书学习…

3.3 The Rank and the Row Reduced Form

一个矩阵的秩rank定义为矩阵pivot的个数。

pivot的个数为r，行数为m，列数为n，则r必定不大于m，不大于n。当r<m时，m-r rows 是其它row的线性组合，整行被消去为0。当r<n时，n-r columns 是nullspace的向量。当A通过消元然后将含有pivot的列都变为只有一个1时，剩下的这n-r个没有pivot的位置上就是free的，就是special solution，同时这几个special solution是无法被其它向量线性组合而成的。它们是independent的。

如何求nullspace matrix？首先将A消元成为R，然后确定free varibles的位置，然后free variables 置为单位向量，剩下的取反即可。

3.4 The Complete Solution to Ax=b

主要讲了方程组解的结构。第二章遇到的都是唯一解的情况，方程都是行满秩，列满秩的，所以都只有唯一解。而实际中方程组可能无解，唯一解，无穷解。本节就是讨论r,m,n三者为不同关系的时候，解的个数。

消元的过程实际上是寻找真正能够提供约束的方程，其标志物就是pivot，也就是矩阵的rank。

当n>m>=r时，必定没有列满秩，此时方程组的解除了一个particular solution（也就是一定能够满足的解意外），还有一个nullspace，完全解的结构是particular solution加上special solution。

当r=m时，必定有解，若此时也有r=n，则有唯一解。

当r<m时，有可能无解，需要看方程右边的值，在消元后非pivot的行是否是全0，全0才有解。

3.5 Independence, Basis and Dimension

几个概念，最终都汇总到space的basis以及dimension上

概念一：linear independence=含有pivot的列=非free variable的列
广义上说就是不可被其它vector线性组合
定义上就是只有系数均为0时线性组合为0，也就是nullspace只有一个0解

概念二：span the space
就是指一组向量的全部线性组合
同时满足linear independence 和 span the space 两个条件的vector组为这些向量组成的space的basis基向量

特殊情况：space为Rn，则basis为任何可逆的n*n的方阵的列向量
一般情况：
m>n，且列满秩的时候，则列向量组成C(A)的同时，也是C(A)的basis。此时这个basis span而成的C(A)，就是Rm中的一个subspace子空间
n>m，则必定非列满秩，那些independent的列向量就是C(A)的basis，free variable对应的列向量就是N(A)的basis
一个space的basis的个数是确定的，就是r，也就是这个space的dimension维度。

rank = # column pivot = # independent cols = # basis = dimension of C(A)
可间接知道nullspace的basis, dimension

full rank = full column rank = all the column vectors are basis = # dimension of C(A)

3.6 Dimensions of the Four Subspaces

主要讲了线性代数第一定理：四个基本subspace的dimension以及basis

Matrix A m*n

column space in Rm
dim: r
basis: pivot column of A(not the pivot column of R!)
row space in Rn
dim: r
basis: pivot row of A or pivot row of R
nullspace of A in Rn
dim: n-r
basis: special solution of Ax=0
left nullspace of A in Rm
dim: m-r
basis: the rows of E makes rows of A to Zero rows

原先写的一些Chp3的总结：
矩阵的rank，是矩阵经过高斯消元以后，含有pivot的列的个数，是矩阵列向量组成的子空间的维度（空间的维度越高，故级别越高），也是这个子空间base向量的个数，也称为这个子空间的degree of freedom自由度。同时那些含有pivot的列矢量，就是这个子空间的base向量，它们是linear independent的。

对于一个m*n的矩阵A，若m>n，则列矢量组成的子空间最多是这个Rm空间的一个子空间，其rank不是满rank。当矩阵不是满rank的时候，它的Nullspace就不止有一个0向量，是一个m-r维度的空间，含有m-r个base向量，这些base向量就是那些不含有pivot的free列矢量。之所以是free的，是因为它们可以由子空间linear independent的列矢量线性组合得到。换句话说，它们不对产生更高的维度做出贡献，故矩阵的rank就是被他们给拖累了。

矩阵的行向量组成的子空间的维度和列向量一样，都等于矩阵的rank。

解Ax=b实际上就是在Ax的子空间中，找到base向量的全部线性组合。这个子空间的性质（维度，base向量），矩阵A已经包含了，可以通过高斯消元得到。

若矩阵可逆，则此为最强的情况，此时矩阵的rank达到最大，称为full rank，所有列向量都是linear independent，刚好组成了这个空间的base向量。此时Nullspace只有一个0向量。

Chapter 4 Orthogonality

4.1 Orthogonality of the Four Subspaces

主要讲了线性代数第二定理：四个基本subspace的相互正交关系

两个空间相互正交指的是这两个空间内的任意两个向量的内积为0。
两个空间正交互补比正交的约束更强，不但要求向量正交，同时两向量的维度之和要等于空间的维度。

column space C(A)和left nullspace N(At)相互orthogonal compliment正交互补
row space C(At)和nullspace N(A)相互orthogonal compliment正交互补

一个方程的解可以看成两个部分x=xr+xn，其中xr存在于row space中，xn存在于nullspace中，Ax=A(xr+xn)=Axr+Axn,
其中Axr将xr映射到A的col space中，若b也落在这个空间中，则有解。同时Axn将xn映射到0。

若当A是方阵同时列向量为basis，则A可逆，同时方程只有唯一解。

4.2 Projection

为什么要做projection？其实是因为有时向量b不在Ax的space中，为了找到一个和b最接近的向量，用于解得一个空间中的近似的解，所以要将b投影到Ax的space中，同时当误差e=b-p与这个space正交时，误差最小。

无论是投影到直线上（1-d space）还是投影到n维的空间中，都是如下三个步骤：

解投影方程，得到space中各个维度的比例值x hat
有了比例值x hat，则可马上得到b在这个space中的投影p
根据b和p，就可以计算出投影矩阵P，这个P是通用且普适的，前面的b只是给出了一个特例。

4.3 Least Squares Approximation

当方程数多于未知数个数的时候，容易出现方程组无解的情况，这是因为目标向量不在col space当中，这时就需要将目标向量分解为两个正交的向量，一个在col space当中，一个在left nullspace当中。分到col space中的向量就是目标向量在col space中的投影，同样，分到left nullspace中的向量就是误差。由于col space和left nullspace是正交互补的关系，所以这样分解其误差就是最小的。这其实就是最小二乘法中使用偏导数的方法求最小误差的中间环节。所以向量投影其实就是最小二乘法。

关键的方程是AtAx=Atb，其中注意AtA只有当A的列向量均是independent的时候，AtA才是可逆的。

4.4 Orthogonal Bases and Gram-Schmidt

Orthogonal vector 是相互正交的向量
Orthonormal vector 是相互正交而且自身的长度均为1的向量
Q用于表示列向量均为Orthonormal vector的矩阵
Orthogonal matrix指的是行列向量均为Orthonormal vector的方阵

一个列向量均为Orthonormal vector的矩阵Q有如下性质：
QtQ=I
当Q进一步为Orthonormal matrix时
Q transpose = Q inverse

permutation matrix 都是 orthogonal matrix

当矩阵A的列向量是一组independent的列向量时，可通过Gram-Schmidt过程构造出另一组orthonormal 列向量，也即矩阵A=QR分解。具体过程就是先选定一个初始向量，然后去除第二个向量在此初始向量上的投影，依次下去。最后全部orthogonal vector归一化成orthonormal vector。联系A和Q的是一个上三角阵R。

至此，线性代数的第一部分讲完了。

Chapter 5 Determinants

5.1 The Properties of Determinants

Determinant可以看作一个magic number，反映了矩阵是singular还是invertible的信息

一个矩阵的Determinant有三个基本性质：

单位矩阵的det为1
交换行det变换符号（其实是前面的permutation matrix的det的符号）
det可视为row的线性叠加函数（乘上某个常数等于乘上，相加某列都等于乘上或相加）

由以上的三个基本性质，可以推出基本性质4-10
4. 两行相等，det=0（可通过交换行det变换符号得出，也可通过线性加减行det不变，但存在等于0的行得出）
5. 从某一行加上任意一行（任意系数），其det不改变（相当于row的线性叠加，不改变最终的pivot，所以你加上多少都是没用的)
6. 有一行为零的矩阵determinant为0（显然，一行为0，则非满秩，其矩阵不可逆，det自然应该为0）
7. 若A是三角阵，则det(A)等于对角元素的乘积（先消元成对角矩阵，此时根据性质5，det并未改变。再根据性质3，将系数提取出来）
8. 当且仅当det=0时，矩阵是singular的；换句话说，当且仅当det不为0时，矩阵是invertible的
9. 两个矩阵相乘（默认了两个矩阵的det都不为0）的determinant，等其各自determinant的乘积
10. 一个矩阵的转置的determinant等于其自身的determinant（所以说行与列对于determinant是等价的）

5.2 Permutations and Cofactors

计算determinant的三种方法：

消元换行后全部pivot相乘
big formula: 每行各取一个，但列不重复
Cofactor: 选取一行，然后determinant就是该行元素与各自的cofactor的乘积的和

5.3 Cramer’s Rule, Inverses, and Volumes

The application of determinant

By using the Cramer’s rule, we can caculate the A inverse and the every entry of the solution of Ax=b
A inverse = (1/detA)Ct
x = (1/detA)(detBj), where Bj = A with column j replaced by b
determinant of A gives a great formula for the area or volume
detA = volume of box
special: the determinant of the orthogonal matrix equals to positive/negative 1, the orthogonal matrix can be regarded

就要开始Eigenvalue了，加油吧！

Chapter 6 Eigenvalue and Eigenvectors

6.1 Eigenvalues and Eigenvectors

一个矩阵的eigenvectors，在矩阵对其变换之后，仍然在原来的方向上，变换后的长度为eigenvalue，eigenvalue可正可负，也可以为0，为0时，其eigenvector在其nullspace中，矩阵是singular的，det=0。
矩阵的列向量可以用其eigenvector线性表示。同时每次乘以一次该矩阵，则eigenvalue自乘一次，同时eigenvector不变，这个性质可以用来计算矩阵的n阶自乘。

计算矩阵的eigenvector和eigenvalue的步骤为：

先根据det(A-lumdaI)=0（因为A-lumdaI为singular的），计算出各个eigenvalue
将eigenvalue代入(A-lumda*I)x=0计算对应的eigenvector

重要的事实：矩阵的对角线元素之和为所有eigenvalue的和，称为矩阵的trace；同时characteristic equation的后面一项等于detA。

特殊的矩阵有着特殊的eigenvector和eigenvalue。比如projection matrix的eigenvalue为1和0；rotation matrix在实数域不存在eigenvector，只在imaginary域上存在；部分矩阵只有一个independent eigenvector，全部eigenvector都在一条线上，等等。

从一矩阵的determinant可以看出：determinant=0 等价于不满秩等价于有eigenvalue=0

6.2 Diagnoalization

矩阵对角化是从得到其eigenvector，很自然地得出的。前提是矩阵具有n个independent的eigenvectors，也即矩阵具有n个不同的eigenvalue。

对角化的过程为：1. 由det(A-lumda*I)=0先计算矩阵的eigenvalue，若得到的eigenvalue均不相同，则说明有n个independent的eigenvectors，满足对角化的前提条件
2. 计算矩阵的eigenvector。
3. 得到eigenvector后，则将其按列排列成矩阵，得到eigenvector matrix，其对应eigenvalue按照相应次序排列而成的对角矩阵则为eigenvalue matrix。AS = S Lumda, A = S Lumda S(-1)

实际应用的时候，将原向量表示成eigenvector的线性组合，n次乘以矩阵A，实际上改变的只有其eigenvector前面的eigenvalue（n次幂）,这种表示是前面方程的向量表示形式。（前面是矩阵形式）

algebra multiply指的是解得的eigenvalue的个数，其中有可能有重复的eigenvalue。geometry multiply指的是eigenvector的个数，由不同的eigenvalue的个数决定。所以当GM<AM时，矩阵是无法对角化的。

附：矩阵能够对角化的条件
矩阵Ann能否对角化，取决于A是否能有n个independent eigenvector，或者说取决于Ann的特征空间的维度是否等于n。

一个矩阵的特征空间的维度主要取决于矩阵A’=A-Lumda I，更进一步说是对于方程 A’x=0的解的个数，考察的是A’在不同的eigenvalue下面的A’(i)的nullspace的rank之和是否达到了n。可分为两种情况：

eigenvalue=0，此时方程A’x=0退化为Ax=0，故此时看A的nullspace的rank就可得知此时的independent eigenvector的个数
eigenvalue不为0，此时看的是A’的nullspace的rank(A’x=0)

最终的特征空间的basis，是由这些不同的Lumda(i)构成的不同的A’(i)各自的nullspace的rank的解所组成的，与矩阵A本身的col space以及nullspace没有直接联系。只有在eigenvalue=0时，才可将对A的nullspace的rank，替代A’的nullspace的rank。这也就是为什么A明明是列满秩，却有两个相同的eigenvector，因为其实本来和A的rank就没有直接的关系。

6.3 Applications to Differential Equations

解constant coefficient differential equation，其实可以看作和解差分方程的一个类比。解的思路都相同，都是在系数矩阵A可对角化的前提下，分解出eigenvalue and eigenvector matrix，然后将这些方程展开成各次系数乘以对应eigenvector的形式，系数通过初始值u(0)得到。两者的区别在于，一个eigenvalue matrix为Lumda的k次幂，对于微分方程则为exp(Lumda*t)。

介绍了exp(At)的含义，可以有两种计算方法：1. 定义式，将exp(At)展开成各次项，然后每次项计算。对于某几项之后A为0比较有用 2. 当A是可对角化时（eigenvector matrix invertible)，将exp(At)分解为S exp(Lumda*t) S inverse 比较方便

方程的稳定性：对于一个微分方程组，只有当eigenvalue的值均为负数的时候，随着时间，解有稳定值，也就要求A是negative definite。对于一个差分方程组，则要求eigenvalue的绝对值均不大于1。

6.4 Symmetric Matrices

对于一个对称的实矩阵而言，其eigenvalue一定都是实数，其eigenvector一定都是正交的。也即意味着，矩阵一定能被分解成为A = Q Lumda Qt 的情况，Q是由eigenvector组成的orthogonal matrix

矩阵的pivot和eigenvalue的联系：两者相乘都等于determinant；对于symmetric matrix, 两者的正负号的个数是一致的。

6.5 Positive Definite Matrices

positive definite matrix 指的是全部eigenvalue均大于0的symmetric matrix

判断一个矩阵是否为正定矩阵有4种办法：

定义：eigenvalue全部都为正，需要计算eigenvalues，不实用
pivot: 全部pivot都大于0
determinant: 左上角各阶determinant均大于0
二次型：xtAx除了在原点等于0，其它地方均大于0

二次型xtAx与原矩阵有如下关系：

xtAx=ax2+2bxy+cy2可得到原矩阵[a b;b c]；或者xtAx求导后得到2A
可以表示成pivot()2的形式
可以表示成eigenvalue()2的形式。从这一点上说，xtAx可表示为一个椭圆，eigenvector的方向即为椭圆的长短轴，eigenvalue即为长短轴
长度的倒数

矩阵AtA一定是positive definite

6.6 Similar Matrices

If two matrices are similar, then they have the same eigenvalues. They are in the same family. For every matrix A in the same family,we can get another B in that family by using B = M(-1)AM, M is just a invertible matrix.

For every matrix that is diagonable, it is simiar to its eigenvalue matrix Lumda because they all can be diagonalized. The eigenvalue matrix is the Jordan form for this diagonable family. Jordan form is the best matrix in a family close to the diagonal matrix as nearly as possible.

For that matrix that is nondiagonable, exp. it has the same eigenvalue so it does not have n independent eigenvector to diagonlize, every matrix that has the same eigenvalues is similar to their Jordan form. Every Jordan block represent several same eigenvalues and only one eigenvector.

6.7 Singular Value Decomposition (SVD)

SVD是一种矩阵的分解方式，它能够将任意一个矩阵，分解为两个正交阵和一个对角阵相乘的形式，相当于对非对称矩阵进行了对角化。
其中一个正交阵U是相互正交的单位列向量外加其左零子空间的单位正交向量（试想一个矩阵中包括了相互正交的col space和left-nullspave）
其中一个正交阵V是相互正交的单位行向量外加其零子空间的单位正交向量。
对角阵中是对应的singular value

这三个矩阵之间有如下关系：
正交阵U和V之间：AV=Usigma，即通过A，可以将原来V中相互正交的向量，变换到U中去，同时长度变为sigma
对角阵和U之间：sigma的平方与U分别是AAt的eigenvalue matrix 和 eigenvector matrix
对角阵和V之间：sigma的平方与V分别是AtA的eigenvalue matrix 和 eigenvector matrix

尽管A有可能不是对称矩阵，甚至没有足够的eigenvector对角化，通过SVD依然能够将矩阵按照正交阵的方式对角化。

Chapter 7 Linear Transformation

7.2 The Matrix of a Linear Transformation

7.3 Change of Basis

Linear Transformation 均可用矩阵乘法表示，因为矩阵乘法是线性运算。

一个向量可以分解为许多basis基向量的组合，所以向量之间的变换，归结到底是基向量之间的变换。

基向量本身的确定是在一个绝对的标准坐标下确定的，所以基向量之间的变换（change of basis），其实质是求得绝对空间中，原坐标系（一般是标准正交系）下的坐标coordinate在新的basis下的新坐标表示。（不同basis下同一个向量的坐标其实是等价的。）他们之间的变换由矩阵M（change of basis matrix）代表，若新的basis为W，则M = W inverse （默认原basis为standard basis）。这也就是两个不同basis之间的identity transformation，因为两个向量要在不同的basis下有着相同的坐标，其实原向量也就必须经历和basis本身一样的变换才可以，这个变换就是change of basis matrix M。

选择不同的basis，会有不同的坐标表示，同时即便是同样的操作（但不是同样的变化过程，比如projection）向量与向量之间的变换矩阵A也会有所不同。如果所要做的变换，与选取的basis（此时input和output选取同一个basis）恰好成为某种关系，比如eigenvalue和eigenvector的关系，那么原变换矩阵可被对角化。以后即便原始basis发生变化，其变换矩阵B仍然保持与矩阵A相似的特性。

7.4 Diagongalization and the Pseudoinverse

主要讲了pseudoinverse的概念。由于矩阵有可能不是方阵，行列都可能不是满秩的。当行不满秩时，N(At)不为零，向量可以分解为col space一部分和left nullspace中的一部分；当列不满秩时，nullspace 不为零，无数nullspace中的向量被映射到col space中的零向量。

矩阵的pseudoinverse只考虑将col space中的元素映射回row space，将N(At)中的元素映射回row space中的零向量。由于其只针对于col space和row space的互逆映射，所以根据伪逆得到的投影方程的解，就是对向量b在col space 中的投影作出的逆映射，故一定是最小二乘解。

（End）