注,本文理解可能有不准确甚至有误的地方,仅供参考
我们知道, f ( x ) f(x) f(x)其实就是一个函数,输入变量值 x x x,在经过规则 f f f处理后,最终拿到一个结果。
另一种常见的情况是,比如概率分布 P ( x ) P(x) P(x),其本质上也是一个以 x x x为自变量的函数,在变量 X X X的值为 x x x的情况下,拿到一个结果,这个结果的意义为变量 X X X取到 x x x的概率。
而 f ( x ; θ ) f(x;\theta) f(x;θ),其实意思就是 f ( x ) f(x) f(x),只不过强调了下函数的参数为 θ \theta θ。这个 θ \theta θ可以是某个确定的常量,也可以是多个确定常量的总体(比如深度神经网络中的全体可训练参数)。例如: θ 2 x + 2 θ + 1 \theta^2x + 2\theta + 1 θ2x+2θ+1, θ = 3 \theta = 3 θ=3,这个函数自变量是 x x x,自然可以写成 f ( x ) f(x) f(x);又因为 x x x的系数(参数)是 θ \theta θ(某个已知或未知的确定值),因此可以表达为 f ( x ; θ ) f(x;\theta) f(x;θ)。
根据以上讨论的这些,现在讨论一个比较复杂的情况。比如,
N
(
x
;
0
,
I
)
\mathcal{N}\left(x ; \mathbf{0}, \mathrm{I}\right)
N(x;0,I)的意思是什么?
我们知道,
N
(
0
,
I
)
\mathcal{N}\left(\mathbf{0}, \mathrm{I}\right)
N(0,I)表示标准高斯分布,均值为0,方差为1,其本质上也是一个概率密度函数:
f
(
x
)
=
1
2
π
e
−
x
2
2
f(x)=\frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}}
f(x)=2π1e−2x2。从这里可以发现,一般的函数我们都是强调自变量本身(比如
x
x
x),而在概率论里面有时候强调的是函数参数本身(比如高斯分布的均值和方差),而淡化了输入变量(默认为
x
x
x,省略)。因此
N
(
x
;
0
,
I
)
\mathcal{N}\left(x ; \mathbf{0}, \mathrm{I}\right)
N(x;0,I)相比与
N
(
0
,
I
)
\mathcal{N}\left(\mathbf{0}, \mathrm{I}\right)
N(0,I)的区别就在于显式强调了函数的输入为
x
x
x。
最后再放个更复杂的东西:
q
(
x
t
∣
x
t
−
1
)
=
N
(
x
t
;
1
−
β
t
x
t
−
1
,
β
t
I
)
q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathrm{I}\right)
q(xt∣xt−1)=N(xt;1−βtxt−1,βtI)。
这个东西分多步看。首先,函数本身是个条件概率分布,
q
(
x
t
∣
x
t
−
1
)
q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)
q(xt∣xt−1)表示
x
t
−
1
\mathbf{x}_{t-1}
xt−1已知的情况下,
x
t
\mathbf{x}_{t}
xt的分布(
x
t
\mathbf{x}_{t}
xt取各种值的概率)。而后面的这个高斯分布则强调了其输入自变量为
x
t
\mathbf{x}_{t}
xt(因为是
x
t
\mathbf{x}_{t}
xt的概率密度函数,所以自变量当然是
x
t
\mathbf{x}_{t}
xt),而高斯分布的均值和方差则分别为
1
−
β
t
x
t
−
1
\sqrt{1-\beta_t} \mathbf{x}_{t-1}
1−βtxt−1和
β
t
I
\beta_t \mathrm{I}
βtI,与条件分布的条件
x
t
−
1
\mathbf{x}_{t-1}
xt−1有关。