数和数组
符号 含义
a
a
a 标量(整数或实数)
a
\boldsymbol{a}
a 向量
A
\boldsymbol{\textit {A}}
A 矩阵
A
\boldsymbol{\mathrm{A}}
A 张量
I
n
\boldsymbol{I}_n
I n n行n列的单位矩阵
I
\boldsymbol{I}
I 维度蕴含于上下文的单位矩阵
e
(
i
)
\boldsymbol{e}^{(i)}
e ( i ) 标准基向量
[
0
,
…
,
0
,
1
,
0
,
…
,
0
]
[0, \dots, 0, 1, 0, \dots,0]
[ 0 , … , 0 , 1 , 0 , … , 0 ] ,其中索引I处值为1
d
i
a
g
(
a
)
diag(\boldsymbol{a})
d i a g ( a ) 对角方阵,其中对角元素有
a
\bold{a}
a 给定
a
\mathrm{a}
a 标量随机变量
a
\boldsymbol{\mathrm{a}}
a 向量随机变量
A
A
A 矩阵随机变量
集合和图
符号 含义
A
\mathbb{A}
A 集合
R
\mathbb{R}
R 实数集
{
0
,
1
}
\{0, 1\}
{ 0 , 1 } 包含0和1的集合
{
0
,
1
,
…
,
n
}
\{0, 1, \dots, n\}
{ 0 , 1 , … , n } 包含0和n之间所有整数的集合
[
a
,
b
]
[a, b]
[ a , b ] 包含a和b的实数区间
(
a
,
b
]
(a, b]
( a , b ] 不包含a但包含b的实数区间
A
∖
B
\mathbb{A}\setminus\mathbb{B}
A ∖ B 差集,即其元素包含于
A
\mathbb{A}
A 但不包含于
B
\mathbb{B}
B
G
\mathcal{G}
G 图
P
a
G
(
x
i
)
Pa_\mathcal{G}(x_i)
P a G ( x i ) 图
G
\mathcal{G}
G 中
x
i
x_i
x i 的父节点
索引
符号 含义
a
i
a_i
a i 向量
a
\bold{a}
a 的第
i
i
i 个元素,其中索引从1开始
a
−
i
a_{-i}
a − i 除了第
i
i
i 个元素,向量
a
\bold{a}
a 的所有元素
A
i
,
j
\boldsymbol{A}_{i,j}
A i , j 矩阵
A
\boldsymbol{A}
A 的
i
,
j
i,j
i , j 元素
A
i
,
:
\boldsymbol{A}_{i,:}
A i , : 矩阵
A
\boldsymbol{A}
A 的第
i
i
i 行
A
:
,
i
\boldsymbol{A}_{:,i}
A : , i 矩阵
A
\boldsymbol{A}
A 的第
i
i
i 列
A
i
,
j
,
k
\boldsymbol{A}_{i,j,k}
A i , j , k 3维张量
A
\boldsymbol{A}
A 的第
(
i
,
j
,
k
)
(i,j,k)
( i , j , k ) 元素
A
:
,
:
,
k
\boldsymbol{A}_{:,:,k}
A : , : , k 3维张量
A
\boldsymbol{A}
A 的2维切片
a
\mathrm{a}
a 随机向量
a
\mathrm{a}
a 的第
i
i
i 个元素,其中索引从1开始
线性代数中的操作
符号 含义
A
⊤
\boldsymbol{A}^{\top}
A ⊤ 矩阵
A
\boldsymbol{A}
A 的转置
A
+
\boldsymbol{A}^+
A +
A
\boldsymbol{A}
A 的Moore-Penrose伪逆
A
⊙
B
\boldsymbol{A}\odot\boldsymbol{B}
A ⊙ B
A
\boldsymbol{A}
A 和
B
\boldsymbol{B}
B 逐元素乘积(Hadamard乘积)
det
A
\det\boldsymbol{A}
det A
A
\boldsymbol{A}
A 的行列式
微积分
符号 含义
d
y
d
x
\frac{\mathrm{d}y}{\mathrm{d}x}
d x d y
y
y
y 关于
x
x
x 的导数
∂
y
∂
x
\frac{\partial y}{\partial x}
∂ x ∂ y
y
y
y 关于
x
x
x 的偏导
∇
x
y
\nabla_{x}y
∇ x y
y
y
y 关于
x
x
x 的梯度
∇
X
y
\nabla_{\boldsymbol{X}}y
∇ X y
y
y
y 关于
X
\boldsymbol{X}
X 的矩阵导数
∇
X
y
\nabla_{\mathbf{X}}y
∇ X y
y
y
y 关于
X
\mathbf{X}
X 求导后的张量
∂
f
∂
x
\frac{\partial f}{\partial x}
∂ x ∂ f
f
:
R
n
→
R
m
f:\mathbb R^n\rightarrow\mathbb R^m
f : R n → R m 的Jacobian矩阵
J
∈
R
m
×
n
\boldsymbol{J}\in\mathbb R^{m\times n}
J ∈ R m × n
∇
x
2
f
(
x
)
o
r
H
(
f
)
(
x
)
\nabla_{x}^{2}f(x) or \boldsymbol{H}(f)(x)
∇ x 2 f ( x ) o r H ( f ) ( x )
f
f
f 在点
x
\boldsymbol{x}
x 处的Hessian矩阵
∫
f
(
x
)
d
x
\int f(x)\mathrm{d}x
∫ f ( x ) d x
x
x
x 整个域上的定积分
∫
S
f
(
x
)
d
x
\int_\mathbb{S} f(x)\mathrm{d}x
∫ S f ( x ) d x 集合
S
\mathbb{S}
S 上关于
x
x
x 的定积分
概率和信息论
符号 含义
a
⊥
b
a \perp b
a ⊥ b
a
a
a 和
b
b
b 相互独立的随机变量
P
(
a
)
P(\mathrm{a})
P ( a ) 离散变量上的概率分布
p
(
a
)
p(\mathrm{a})
p ( a ) 连续变量(或变量类型未指定时)上的概率分布
a
∼
P
\mathrm{a} \sim P
a ∼ P 具有分布
P
P
P 的随机变量
a
\mathrm{a}
a
E
X
∼
P
[
f
(
x
)
]
o
r
E
f
(
x
)
\mathbb{E}_{X\sim P}[f(x)] or \mathbb{E}f(x)
E X ∼ P [ f ( x ) ] o r E f ( x )
f
(
x
)
f(x)
f ( x ) 关于
P
(
x
)
P(x)
P ( x ) 的期望
V
a
r
(
f
(
x
)
)
Var(f(x))
V a r ( f ( x ) )
f
(
x
)
f(x)
f ( x ) 在分布
P
(
x
)
P(x)
P ( x ) 下的方差
C
o
v
(
f
(
x
)
,
g
(
x
)
)
Cov(f(x),g(x))
C o v ( f ( x ) , g ( x ) )
f
(
x
)
f(x)
f ( x ) 和
g
(
x
)
g(x)
g ( x ) 在分布
P
(
x
)
P(x)
P ( x ) 下的协方差
H
(
x
)
H(x)
H ( x ) 随机变量
x
x
x 的香农熵
D
K
L
(
P
∥
Q
)
D_{KL}(P\|Q)
D K L ( P ∥ Q )
P
P
P 和
Q
Q
Q 的
K
L
KL
K L 散度
N
(
x
;
μ
,
Σ
)
\mathcal{N}(\boldsymbol{x};\boldsymbol{\mu},\boldsymbol{\Sigma})
N ( x ; μ , Σ ) 均值为
μ
\boldsymbol{\mu}
μ 协方差为
Σ
\boldsymbol{\Sigma}
Σ ,
x
\boldsymbol{x}
x 上的高斯分布
下面因为单竖线不能加到表格中
a
⊥
b
∣
c
a \perp b | c
a ⊥ b ∣ c : 给定
c
c
c 后条件独立
函数
符号 含义
f
:
A
→
B
f:\mathbb{A}\rightarrow\mathbb{B}
f : A → B 定义域为
A
\mathbb{A}
A 值域为
B
\mathbb{B}
B 的函数
f
f
f
f
∘
g
f \circ g
f ∘ g
f
f
f 和
g
g
g 的组合
f
(
x
;
θ
)
f(\boldsymbol{x};\boldsymbol{\theta})
f ( x ; θ ) 由
θ
\boldsymbol{\theta}
θ 参数化,关于
x
x
x 的函数,有时为简化表示,我们忽略
θ
\boldsymbol{\theta}
θ 记为
f
(
x
)
f(\boldsymbol{x})
f ( x )
log
x
\log x
log x
x
x
x 的自然对数
σ
(
x
)
\sigma(x)
σ ( x ) Logistic sigmoid,
1
1
+
exp
(
−
x
)
\frac{1}{1+\exp(-x)}
1 + exp ( − x ) 1
ζ
(
x
)
\zeta(x)
ζ ( x ) Softplus,
log
(
1
+
exp
(
−
x
)
)
\log({1+\exp(-x)})
log ( 1 + exp ( − x ) )
∥
x
∥
p
\lVert\boldsymbol{x}\rVert_p
∥ x ∥ p
x
x
x 的
L
p
L^p
L p 范数
∥
x
∥
\lVert\boldsymbol{x}\rVert
∥ x ∥
x
x
x 的
L
2
L^2
L 2 范数
x
+
x^+
x +
x
x
x 的正数部分,即
max
(
0
,
x
)
\max(0,x)
max ( 0 , x )
1
c
o
n
d
i
t
i
o
n
1_{condition}
1 c o n d i t i o n 如果条件为真则为1,否则为0
有时候我们使用函数
f
f
f ,它的参数是一个标量,但应用到一个向量、矩阵或张量:
f
(
x
)
f(x)
f ( x ) ,
f
(
X
)
f(X)
f ( X ) ,or
f
(
X
)
f(\boldsymbol{X})
f ( X ) 。这表示逐元素地将
f
f
f 应用于数组。例如,
C
=
σ
(
X
)
\boldsymbol{C}=\sigma(\boldsymbol{X})
C = σ ( X ) ,则对于所有合法的
i
,
j
i,j
i , j 和
k
k
k ,
C
i
,
j
,
k
=
σ
(
X
i
,
j
,
k
)
C_{i,j,k}=\sigma(X_{i,j,k})
C i , j , k = σ ( X i , j , k ) 。
数据集合分布
符号 含义
p
d
a
t
a
p_{data}
p d a t a 数据生成分布
p
^
t
r
a
i
n
\hat p_{train}
p ^ t r a i n 由训练集定义的经验分布
X
\mathbb{X}
X 训练样本的集合
x
(
i
)
\boldsymbol{x}^{(i)}
x ( i ) 数据集的第
i
i
i 个样本(输入)
y
(
i
)
o
r
y
(
i
)
y^{(i)} or \boldsymbol{y}^{(i)}
y ( i ) o r y ( i ) 监督学习中与
x
(
i
)
\boldsymbol{x}^{(i)}
x ( i ) 关联的目标
X
\boldsymbol{X}
X
m
×
n
m\times n
m × n 的矩阵,其中行
X
i
,
:
\boldsymbol{X}_{i,:}
X i , : 为输入样本
x
(
i
)
\boldsymbol{x}^{(i)}
x ( i )