其中x1,…,xn
x
1
,
…
,
x
n
是向量的元素。我们将各元素均为实数的n
n
维向量x记作x∈Rn
x
∈
R
n
或x∈Rn×1
x
∈
R
n
×
1
。
矩阵
一个m
m
行n列矩阵的表达式可写成
X=⎡⎣⎢⎢⎢⎢⎢x11x21⋮xm1x12x22⋮xm2……⋱…x1nx2n⋮xmn⎤⎦⎥⎥⎥⎥⎥,
X
=
[
x
11
x
12
…
x
1
n
x
21
x
22
…
x
2
n
⋮
⋮
⋱
⋮
x
m
1
x
m
2
…
x
m
n
]
,
其中xij
x
i
j
是矩阵X
X
中第i
i
行第j列的元素(1≤i≤m,1≤j≤n
1
≤
i
≤
m
,
1
≤
j
≤
n
)。我们将各元素均为实数的m
m
行n列矩阵X
X
记作X∈Rm×n
X
∈
R
m
×
n
。不难发现,向量是特殊的矩阵。
运算
设n
n
维向量a中的元素为a1,…,an
a
1
,
…
,
a
n
,n
n
维向量b中的元素为b1,…,bn
b
1
,
…
,
b
n
。向量a
a
与b
b
的点乘(内积)是一个标量:
a⋅b=a1b1+…+anbn.
a
⋅
b
=
a
1
b
1
+
…
+
a
n
b
n
.
设两个m
m
行n列矩阵
A=⎡⎣⎢⎢⎢⎢⎢a11a21⋮am1a12a22⋮am2……⋱…a1na2n⋮amn⎤⎦⎥⎥⎥⎥⎥,B=⎡⎣⎢⎢⎢⎢⎢b11b21⋮bm1b12b22⋮bm2……⋱…b1nb2n⋮bmn⎤⎦⎥⎥⎥⎥⎥.
A
=
[
a
11
a
12
…
a
1
n
a
21
a
22
…
a
2
n
⋮
⋮
⋱
⋮
a
m
1
a
m
2
…
a
m
n
]
,
B
=
[
b
11
b
12
…
b
1
n
b
21
b
22
…
b
2
n
⋮
⋮
⋱
⋮
b
m
1
b
m
2
…
b
m
n
]
.
矩阵A
A
的转置是一个n
n
行m列矩阵,它的每一行其实是原矩阵的每一列:
A⊤=⎡⎣⎢⎢⎢⎢⎢a11a12⋮a1na21a22⋮a2n……⋱…am1am2⋮amn⎤⎦⎥⎥⎥⎥⎥.
A
⊤
=
[
a
11
a
21
…
a
m
1
a
12
a
22
…
a
m
2
⋮
⋮
⋱
⋮
a
1
n
a
2
n
…
a
m
n
]
.
两个相同形状的矩阵的加法实际上是按元素做加法:
A+B=⎡⎣⎢⎢⎢⎢⎢a11+b11a21+b21⋮am1+bm1a12+b12a22+b22⋮am2+bm2……⋱…a1n+b1na2n+b2n⋮amn+bmn⎤⎦⎥⎥⎥⎥⎥.
A
+
B
=
[
a
11
+
b
11
a
12
+
b
12
…
a
1
n
+
b
1
n
a
21
+
b
21
a
22
+
b
22
…
a
2
n
+
b
2
n
⋮
⋮
⋱
⋮
a
m
1
+
b
m
1
a
m
2
+
b
m
2
…
a
m
n
+
b
m
n
]
.
我们使用符号⊙
⊙
表示两个矩阵按元素做乘法的运算:
A⊙B=⎡⎣⎢⎢⎢⎢⎢a11b11a21b21⋮am1bm1a12b12a22b22⋮am2bm2……⋱…a1nb1na2nb2n⋮amnbmn⎤⎦⎥⎥⎥⎥⎥.
A
⊙
B
=
[
a
11
b
11
a
12
b
12
…
a
1
n
b
1
n
a
21
b
21
a
22
b
22
…
a
2
n
b
2
n
⋮
⋮
⋱
⋮
a
m
1
b
m
1
a
m
2
b
m
2
…
a
m
n
b
m
n
]
.
矩阵乘法和按元素的乘法不同。设A
A
为m
m
行p列的矩阵,B
B
为p
p
行n列的矩阵。两个矩阵相乘的结果
AB=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢a11a21⋮ai1⋮am1a12a22⋮ai2⋮am2……⋱…⋱…a1pa2p⋮aip⋮amp⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢⎢b11b21⋮bp1b12b22⋮bp2……⋱…b1jb2j⋮bpj……⋱…b1nb2n⋮bpn⎤⎦⎥⎥⎥⎥⎥
A
B
=
[
a
11
a
12
…
a
1
p
a
21
a
22
…
a
2
p
⋮
⋮
⋱
⋮
a
i
1
a
i
2
…
a
i
p
⋮
⋮
⋱
⋮
a
m
1
a
m
2
…
a
m
p
]
[
b
11
b
12
…
b
1
j
…
b
1
n
b
21
b
22
…
b
2
j
…
b
2
n
⋮
⋮
⋱
⋮
⋱
⋮
b
p
1
b
p
2
…
b
p
j
…
b
p
n
]
是一个m
m
行n列的矩阵,其中第i
i
行第j列(1≤i≤m,1≤j≤n
1
≤
i
≤
m
,
1
≤
j
≤
n
)的元素为
ai1b1j+ai2b2j+…+aipbpj=∑k=1paikbkj.
a
i
1
b
1
j
+
a
i
2
b
2
j
+
…
+
a
i
p
b
p
j
=
∑
k
=
1
p
a
i
k
b
k
j
.
范数
设n
n
维向量x中的元素为x1,…,xn
x
1
,
…
,
x
n
。向量x
x
的Lp
L
p
范数为
∥x∥p=(∑i=1n|xi|p)1/p.
‖
x
‖
p
=
(
∑
i
=
1
n
|
x
i
|
p
)
1
/
p
.
例如,x
x
的L1
L
1
范数是该向量元素绝对值的和:
∥x∥1=∑i=1n|xi|.
‖
x
‖
1
=
∑
i
=
1
n
|
x
i
|
.
而x
x
的L2
L
2
范数是该向量元素平方和的平方根:
∥x∥2=∑i=1nx2i−−−−−√.
‖
x
‖
2
=
∑
i
=
1
n
x
i
2
.
我们通常用∥x∥
‖
x
‖
指代∥x∥2
‖
x
‖
2
。
设X
X
是一个m
m
行n列矩阵。矩阵X
X
的Frobenius范数为该矩阵元素平方和的平方根:
∥X∥F=∑i=1m∑j=1nx2ij−−−−−−−−⎷,
‖
X
‖
F
=
∑
i
=
1
m
∑
j
=
1
n
x
i
j
2
,
其中xij
x
i
j
为矩阵X
X
在第i
i
行第j列的元素。
特征向量和特征值
对于一个n
n
行n列的矩阵A
A
,假设有标量λ
λ
和非零的n
n
维向量v使
Av=λv,
A
v
=
λ
v
,
那么v
v
是矩阵A
A
的一个特征向量,标量λ
λ
是v
v
对应的特征值。
微分
我们在这里简要介绍微分的一些基本概念和演算。
导数和微分
假设函数f:R→R
f
:
R
→
R
的输入和输出都是标量。函数f
f
的导数
f′(x)=limh→0f(x+h)−f(x)h,
且假定该极限存在。给定y=f(x)
y
=
f
(
x
)
,其中x
x
和y分别是函数f
f
的自变量和因变量。以下有关导数和微分的表达式等价:
f′(x)=y′=dydx=dfdx=ddxf(x)=Df(x)=Dxf(x),
其中符号D
D
和d/dx也叫微分运算符。常见的微分演算有DC=0
D
C
=
0
(C
C
为常数)、Dxn=nxn−1(n
n
为常数)、Dex=ex、Dln(x)=1/x
D
ln
(
x
)
=
1
/
x
等。
如果y=f(u)
y
=
f
(
u
)
和u=g(x)
u
=
g
(
x
)
都是可导函数,依据链式法则,
dydx=dydududx.
d
y
d
x
=
d
y
d
u
d
u
d
x
.
泰勒展开
函数f
f
的泰勒展开式是
f(x)=∑n=0∞f(n)(a)n!(x−a)n,
其中f(n)
f
(
n
)
为函数f
f
的n阶导数(求n
n
次导数),n!为n
n
的阶乘。假设ϵ是个足够小的数,如果将上式中x
x
和a分别替换成x+ϵ
x
+
ϵ
和x
x
,我们可以得到
f(x+ϵ)≈f(x)+f′(x)ϵ+O(ϵ2).
由于ϵ
ϵ
足够小,上式也可以简化成
f(x+ϵ)≈f(x)+f′(x)ϵ.
f
(
x
+
ϵ
)
≈
f
(
x
)
+
f
′
(
x
)
ϵ
.
偏导数
设u
u
为一个有n个自变量的函数,u=f(x1,x2,…,xn)
u
=
f
(
x
1
,
x
2
,
…
,
x
n
)
,它有关第i
i
个变量xi的偏导数为
∂u∂xi=limh→0f(x1,…,xi−1,xi+h,xi+1,…,xn)−f(x1,…,xi,…,xn)h.
∂
u
∂
x
i
=
lim
h
→
0
f
(
x
1
,
…
,
x
i
−
1
,
x
i
+
h
,
x
i
+
1
,
…
,
x
n
)
−
f
(
x
1
,
…
,
x
i
,
…
,
x
n
)
h
.
以下有关偏导数的表达式等价:
∂u∂xi=∂f∂xi=fxi=fi=Dif=Dxif.
∂
u
∂
x
i
=
∂
f
∂
x
i
=
f
x
i
=
f
i
=
D
i
f
=
D
x
i
f
.
为了计算∂u/∂xi
∂
u
/
∂
x
i
,我们只需将x1,…,xi−1,xi+1,…,xn
x
1
,
…
,
x
i
−
1
,
x
i
+
1
,
…
,
x
n
视为常数并求u
u
有关xi的导数。
梯度
假设函数f:Rn→R
f
:
R
n
→
R
的输入是一个n
n
维向量x=[x1,x2,…,xn]⊤,输出是标量。函数f(x)
f
(
x
)
有关x
x
的梯度是一个由n
n
个偏导数组成的向量:
∇xf(x)=[∂f(x)∂x1,∂f(x)∂x2,…,∂f(x)∂xn]⊤.
为表示简洁,我们有时用∇f(x)
∇
f
(
x
)
代替∇xf(x)
∇
x
f
(
x
)
。
假设x
x
是一个向量,常见的梯度演算包括
∇xA⊤x∇xx⊤A∇xx⊤Ax∇x∥x∥2=A,=A,=(A+A⊤)x,=∇xx⊤x=2x.
∇
x
A
⊤
x
=
A
,
∇
x
x
⊤
A
=
A
,
∇
x
x
⊤
A
x
=
(
A
+
A
⊤
)
x
,
∇
x
‖
x
‖
2
=
∇
x
x
⊤
x
=
2
x
.
类似地,假设X
X
是一个矩阵,那么
∇X∥X∥2F=2X.
∇
X
‖
X
‖
F
2
=
2
X
.
黑塞矩阵
假设函数f:Rn→R
f
:
R
n
→
R
的输入是一个n
n
维向量x=[x1,x2,…,xn]⊤,输出是标量。假定函数f
f
所有的二阶偏导数都存在,f的黑塞矩阵H
H
是一个n
n
行n列的矩阵:
H=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢∂2f∂x21∂2f∂x2∂x1⋮∂2f∂xn∂x1∂2f∂x1∂x2∂2f∂x22⋮∂2f∂xn∂x2……⋱…∂2f∂x1∂xn∂2f∂x2∂xn⋮∂2f∂x2n⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥,
H
=
[
∂
2
f
∂
x
1
2
∂
2
f
∂
x
1
∂
x
2
…
∂
2
f
∂
x
1
∂
x
n
∂
2
f
∂
x
2
∂
x
1
∂
2
f
∂
x
2
2
…
∂
2
f
∂
x
2
∂
x
n
⋮
⋮
⋱
⋮
∂
2
f
∂
x
n
∂
x
1
∂
2
f
∂
x
n
∂
x
2
…
∂
2
f
∂
x
n
2
]
,
其中二阶偏导数
∂2f∂xi∂xj=∂∂xj(∂f∂xi).
∂
2
f
∂
x
i
∂
x
j
=
∂
∂
x
j
(
∂
f
∂
x
i
)
.
概率
最后,我们简要介绍条件概率、期望和均匀分布。
条件概率
假设事件A
A
和事件B的概率分别为P(A)
P
(
A
)
和P(B)
P
(
B
)
,两个事件同时发生的概率记作P(A∩B)
P
(
A
∩
B
)
或P(A,B)
P
(
A
,
B
)
。给定事件B
B
,事件A的条件概率
P(A∣B)=P(A∩B)P(B).
P
(
A
∣
B
)
=
P
(
A
∩
B
)
P
(
B
)
.
也就是说,
P(A∩B)=P(B)P(A∣B)=P(A)P(B∣A).
P
(
A
∩
B
)
=
P
(
B
)
P
(
A
∣
B
)
=
P
(
A
)
P
(
B
∣
A
)
.
当满足
P(A∩B)=P(A)P(B)
P
(
A
∩
B
)
=
P
(
A
)
P
(
B
)
时,事件A
A
和事件B相互独立。
期望
随机变量X
X
的期望(或平均值)
E(X)=∑xxP(X=x).
均匀分布
假设随机变量X
X
服从[a,b]上的均匀分布,即X∼U(a,b)
X
∼
U
(
a
,
b
)
。随机变量X
X
取a和b
b
<script type="math/tex" id="MathJax-Element-182">b</script>之间任意一个数的概率相等。