一 线代内容
1 标量、向量、矩阵、张量之间的联系
1.1 张量
可以理解为矩阵的升级版,矩阵是二维的,张量可以是无限维。可以说标量就是0阶张量、向量就是1阶张量、矩阵就是2阶张量。
1.2 向量和矩阵的范数归纳
1.2.1 向量的范数
向量的L1范数
∥
x
⃗
∥
1
=
∑
i
=
1
N
∣
x
i
∣
\Vert\vec{x}\Vert_1=\sum_{i=1}^N\vert{x_i}\vert
∥x∥1=i=1∑N∣xi∣
向量的L2范数
∥
x
⃗
∥
2
=
∑
i
=
1
N
∣
x
i
∣
2
\Vert\vec{x}\Vert_2=\sqrt{\sum_{i=1}^N{\vert{x_i}\vert}^2}
∥x∥2=i=1∑N∣xi∣2
这两个为最常见的范数形式,还有向量的负无穷范数、正无穷范数、p范数。
范数简介
1.2.2 矩阵的范数
矩阵的范数定义为
∥
A
∥
p
:
=
sup
x
≠
0
∥
A
x
∥
p
∥
x
∥
p
\Vert{A}\Vert_p :=\sup_{x\neq 0}\frac{\Vert{Ax}\Vert_p}{\Vert{x}\Vert_p}
∥A∥p:=x=0sup∥x∥p∥Ax∥p
当向量取不同范数时, 相应得到了不同的矩阵范数。
矩阵的1-范数(列模)
矩阵的每一列上的元素绝对值先求和,再从中取个最大的
∥
A
∥
1
=
max
1
≤
j
≤
n
∑
i
=
1
m
∣
a
i
j
∣
\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|
∥A∥1=1≤j≤nmaxi=1∑m∣aij∣
总结就是列和最大。
矩阵的2-范数(谱模)
矩阵
A
T
A
A^TA
ATA的最大特征值开平方根
∥
A
∥
2
=
λ
m
a
x
(
A
T
A
)
\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}
∥A∥2=λmax(ATA)
其中,
λ
m
a
x
(
A
T
A
)
\lambda_{max}(A^T A)
λmax(ATA) 为
A
T
A
A^T A
ATA 的特征值绝对值的最大值。总结就是
A
T
A
A^T A
ATA最大特征根开平方根。矩阵还有无穷范数、核范数、L0范数、L1范数、F范数、L21范数。
1.3 判断矩阵为正定
定义:设
M
M
M是n阶方阵,如果对任何非零向量z,都有
z
T
M
z
>
0
z^TMz> 0
zTMz>0,其中
z
T
z^T
zT表示
z
z
z的转置,就称
M
M
M为正定矩阵。
性质:
(1)正定矩阵的行列式恒为正;
(2)实对称矩阵A正定当且仅当A与单位矩阵合同;
(3)若A是正定矩阵,则A的逆矩阵也是正定矩阵;
(4)两个正定矩阵的和是正定矩阵;
(5)正实数与正定矩阵的乘积是正定矩阵。
2 特征值和特征向量
特征值分解可以得到特征值和特征向量。特征值表示的这个特征有多重要,而特征向量表示这个特征是什么。
特征向量和特征值的解释
A
ν
=
λ
ν
A\nu = \lambda \nu
Aν=λν
λ
\lambda
λ为特征向量
v
⃗
\vec{v}
v对应的特征值。
二 概率论内容
1 机器学习为什么要使用概率论
机器学习除了处理不确定的变量,也要处理随机变量。不确定和随机性来自多个方面,概率论来量化不确定性。
2 概率分布
2.1 正态分布
从概率论中,我们掌握很多概率分布,如高斯分布、布尔分布、指数分布、拉普拉斯分布等等,但正态分布无疑是最有特殊性的一个。
那么我们什么时候会用正太分布呢?在机器学习中,我们缺乏实数上分布的经验知识,不知道采取何种形式时,默认选择正态分布总是不会错的。理由如下:
- 中心极限定理告诉我们,很多独立的随机变量近似服从正态分布,现实中很多复杂的系统都可以被建模成正太分布的噪声,即使该系统可以被结构化分解。
- 正态分布是具有相同方差的所有概率分布,不确定性最大的分布,换句话说正态分布是对模型加入先验知识最少的分布。
2.2 正态分布的推广
正太分布可以推广到
R
n
R^n
Rn空间,此时称为多维正态分布
N
(
x
;
μ
⃗
,
Σ
)
=
1
(
2
π
)
n
d
e
t
(
Σ
)
e
x
p
(
−
1
2
(
x
⃗
−
μ
⃗
)
T
Σ
−
1
(
x
⃗
−
μ
⃗
)
)
N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)
N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ)TΣ−1(x−μ))
多维正态分布