深度学习笔记
第一章 应用数学和机器学习基础
一、基本概念
1.标量(scalar):标量是一个数,例如,
s
=
1
s=1
s=1。
2.向量(vector):向量是一列数,例如,向量
v
=
[
1
,
2
,
3
,
4
,
5
]
T
\mathbf{v}=[1,2,3,4,5]^{T}
v=[1,2,3,4,5]T,向量一般默认按照列向量存储,是一维数组,表示
n
n
n 维空间的一个点。其中向量中的第
i
i
i 个元素为
v
i
\mathbf{v}_{i}
vi.
矩阵(matrix):矩阵是二维数组,例如,
M
=
[
1
,
2
3
,
4
]
\mathbf{M} = \left[\begin{matrix} 1,2\\ 3,4 \end{matrix} \right]
M=[1,23,4]
矩阵大小为
m
×
n
m\times n
m×n,其中
m
m
m,
n
n
n分别表示矩阵的行数和列数,矩阵的第
i
×
j
i\times j
i×j个元素为
M
i
,
j
\mathbf{M}_{i,j}
Mi,j。
3.张量(tensor):张量表示多维数组,例如
T
=
[
[
1
,
2
3
,
4
]
,
[
5
,
6
7
,
8
]
[
9
,
10
11
,
12
]
[
13
,
14
15
,
16
]
]
\mathbf{T} = \left[\begin{matrix} \left[\begin{matrix} 1,2\\ 3,4 \end{matrix} \right],\left[\begin{matrix} 5,6\\ 7,8 \end{matrix} \right]\\ \left[\begin{matrix} 9,10\\ 11,12 \end{matrix} \right] \left[\begin{matrix} 13,14\\ 15,16 \end{matrix} \right] \end{matrix} \right]
T=⎣⎢⎢⎡[1,23,4],[5,67,8][9,1011,12][13,1415,16]⎦⎥⎥⎤
读取张量中的某个元素为
T
i
,
j
,
k
\mathbf{T}_{i,j,k}
Ti,j,k。
注: 一般地,标量使用小写字母表示,向量使用小写粗体字母表示,矩阵和张量使用大写粗体字母表示。
s
,
v
,
M
,
T
s, \mathbf{v}, \mathbf{M}, \mathbf{T}
s,v,M,T 可分别表示标量
a
a
a, 向量
v
\mathbf{v}
v, 矩阵
M
\mathbf{M}
M, 张量
T
\mathbf{T}
T.
2、基本运算
1、向量内积
向量内积表示两个向量
a
=
[
a
1
,
…
,
a
n
]
T
\mathbf{a}=[a_{1},\dots,a_{n}]^{T}
a=[a1,…,an]T 和
b
=
[
b
1
,
…
,
b
n
]
T
\mathbf{b}=[b_{1},\dots,b_{n}]^{T}
b=[b1,…,bn]T 对应元素的乘积之和,表示为
a
T
b
\mathbf{a}^{T}\mathbf{b}
aTb, 即
a
T
b
=
∑
i
=
1
n
a
i
b
i
\mathbf{a}^{T}\mathbf{b} = \sum_{i=1}^{n}a_{i}b_{i}
aTb=i=1∑naibi
2、矩阵乘积
矩阵
A
m
×
n
\mathbf{A}_{m\times n}
Am×n 和矩阵
B
n
×
p
\mathbf{B}_{n\times p}
Bn×p 的乘积可表示为
C
m
×
p
=
A
m
×
n
B
n
×
p
\mathbf{C}_{m\times p}=\mathbf{A}_{m\times n}\mathbf{B}_{n\times p}
Cm×p=Am×nBn×p,其中矩阵
C
m
×
p
\mathbf{C}_{m\times p}
Cm×p的第
(
i
,
j
)
(i,j)
(i,j) 个元素为
C
i
,
j
=
∑
k
=
1
n
A
i
,
k
B
k
,
j
C_{i,j} = \sum_{k=1}^{n}A_{i,k}B_{k,j}
Ci,j=k=1∑nAi,kBk,j
3、矩阵点积(Hadamard乘积)
矩阵点积指两个矩阵
A
m
×
n
,
B
m
×
n
\mathbf{A}_{m\times n}, \mathbf{B}_{m\times n}
Am×n,Bm×n中对应元素的乘积,记为
C
m
×
n
=
A
m
×
n
⊙
B
m
×
n
\mathbf{C}_{m\times n} = \mathbf{A}_{m\times n}\odot\mathbf{B}_{m\times n}
Cm×n=Am×n⊙Bm×n, 矩阵
C
\mathbf{C}
C的第
(
i
,
j
)
(i,j)
(i,j) 个元素为
C
i
,
j
=
A
i
,
j
B
i
,
j
\mathbf{C}_{i,j} = \mathbf{A}_{i,j}\mathbf{B}_{i,j}
Ci,j=Ai,jBi,j
**