接上一篇:刘博:深度学习中的线性代数2:矩阵乘法
3. 矩阵的操作和性质
3.1 单位矩阵和对角矩阵
单位矩阵
定义:所有对角元素均为1,其他元素都是0的方阵。
表达式:
性质:
对角矩阵
定义:除对角元素外,其他元素都是0的矩阵。
表达式:
显然,单位矩阵是对角矩阵的特殊情况
3.2 转置
定义:矩阵的转置,就是“交换”矩阵的行和列。
表达式:
性质:
3.3 对称矩阵
定义:对于方阵
例如:
性质:任何一个矩阵都可以表示成对称矩阵和反对称矩阵和的形式,因为
3.4 矩阵的迹
定义:对于方阵
表达式:
性质:
-
-
-
-
,当然,前提是这里的AB是方阵。
-
,以及任何多个矩阵的积(方阵)都满足迹的交换律。
3.5 矩阵的范数
向量的范数
注意:
范数更加正式的定义是:任何满足下述条件的函
- 正定性或非负性( non-negativity):对于
,
- 确定性( definiteness),当且仅当x=0时,f(x)=0
- 齐次性(homogeneity),对于
- 满足三角不等式(triangle inequality),对于
矩阵的范数,以菲罗贝尼乌斯范数(Frobenius norm)为例:
还有很多其他的范数,但是超出了本文的谈论范围。
3.6 线性无关和矩阵的秩
线性无关(Linear Independence)
定义:对于向量集
例子:
列秩
最大的线性独立的列向量的子集合的列数。
行秩:最大的线性独立的行向量的子集合的行数。
也就是说,假设矩阵A有n行,其中能找到的最大的子集合有n-2行,那么矩阵A的行秩就是n-2。 矩阵的列秩和行秩相等(读者可以自行证明),所以,一般来说统一称为矩阵的秩(Rank)。
表达式:
性质:
- 对于
如果那么我们说A是满秩。
- 对于
- 对于
- 对于
3.7 矩阵的逆
对于方阵
注意,不是所有的矩阵都有逆矩阵,记住这句话:不是方阵一定不存在逆矩阵(逆矩阵的定义),是方阵不一定存在逆矩阵。
如果A存在逆矩阵
性质:
-
-
-
,所以当我么想要A的逆的转置时,表达为
3.8 正交矩阵
先说正交向量,如果对于
再来说说归一化,如果一个向量的范数是1,
有了前面两个定义,我们现在来定义正交矩阵,对于一个方阵来说
我们还可以得到:
最后,正交矩阵的性质,正交矩阵乘以一个向量,不影响这个向量的范数,如下:
3.9 矩阵列空间和零空间
生成空间
定义:一个向量集合
表达式:
投影
定义:我们定义向量
表达式:
列空间
定义:矩阵
表达式:
列空间的投影
定义:假设
其实列空间的投影得到的就是最小二乘估计的参数
零空间
定义:由所有右乘矩阵
表达式:
正交补
注意,
3.10 行列式
定义: 一个方阵
下面我们来讨论行列式的几何意义。
给出以下矩阵:
考虑这样的集和
矩阵行列式的绝对值,就是对集合S的面积(或体积)的测量。
行列式性质:
1. 单位矩阵的行列式为1。
2. 如果我们给一个矩阵的某一行乘以一个标量
3. 如果我们交换矩阵A的两行
根据以上三条性质还能够推出以下性质:
- 对于
- 对于
- 当且仅当A是奇异矩阵时,对于
- 对于
且A是非奇异矩阵,有
在给出行列式的通用定义之前,我们首先定义,对于
3.11 二次型和半正定矩阵
定义:给定一个方阵
表达式:
由二次型的定义证明矩阵A是对称矩阵:
第一个等号因为二次型是标量,标量的转置等于自身,第二个等号是转置的计算,其实此时由
我们继续给出如下定义:
- 如果对于所有非零向量
,都有,那么对称矩阵称为正定矩阵,一般表示为或,一般将所有正定矩阵的集合表示为。
- 如果对于所有向量
,都有,那么对称矩阵称为半正定矩阵,一般表示为或,一般将所有正定矩阵的集合表示为。
- 同样,如果对于所有非零向量
,都有,那么对称矩阵称为负定矩阵,一般表示为或。
- 同样,如果对于所有向量
,都有,那么对称矩阵称为半负定矩阵,一般表示为或。
- 最后,如果对称矩阵
既不是半正定矩阵也不是半负定矩阵,则称为不定矩阵。
一个重要的性质是正定和负定矩阵必须是满秩矩阵。
格拉姆矩阵
给定任意矩阵
3.12 特征值和特征向量
给定方阵
一般我们说特征值对应的“特征向量”,指的是被归一化的那个向量。
我们可以将表达式重写为下面的形式,这种形式我们称
只有当
现在,我们可以利用之前对行列式的定义,将其扩展为关于
性质:
- A的迹等于所有特征值的和
- A的行列式等于所有特征值的乘积
- A的秩等于A的非零特征值的数量
- 如果A是非奇异矩阵那么
是的特征值,对应的特征向量是.
- 一个对角矩阵的奇异值就是对角元素。
我们可以联立写出所有特征向量的形式如下:
其中,
如果A的特征向量都是线性无关的,那么矩阵
3.13 对称矩阵的特征值和特征向量
当我们研究一个对称矩阵
因此,一个矩阵的正定性完全取决于特征值的符号。假设
其中
因为
一个特征值和特征矩阵的常见应用是最大化一个矩阵的一些函数。实际中,对于一个矩阵
例如,我们想要找到使二次型
OK,本篇到此,下一篇继续讨论关于矩阵微积分的内容。