机器学习笔记之指数族分布——指数族分布介绍
引言
本节及后续小节将从指数族分布 → \to → 熵、最大熵原理 → sigmoid,softmax \to \text{sigmoid,softmax} →sigmoid,softmax函数的思路进行介绍。
指数族分布介绍
指数族分布( Exponential Families of Distributions \text{Exponential Families of Distributions} Exponential Families of Distributions),它不是某一个分布,而是满足某种条件的分布集合。从名字可以看出,指数族分布描述的概率分布与指数相关。指数族分布的统一格式表示如下:
P ( x ∣ η ) = h ( x ) exp { η T ϕ ( x ) − A ( η ) } \mathcal P(x \mid \eta) = h(x) \exp \left\{\eta^{T} \phi(x) - A(\eta) \right\} P(x∣η)=h(x)exp{
ηTϕ(x)−A(η)}
如果只看公式等号左边 → P ( x ∣ η ) \to P(x \mid \eta) →P(x∣η),在介绍极大似然估计与最大后验概率估计中介绍过,它可以表示为 基于参数向量 η \eta η,生成随机样本 x x x的概率模型。
我们称:
- ϕ ( x ) \phi(x) ϕ(x)为充分统计量,它可以理解成样本的函数—— 如果已知充分统计量,就可以通过该统计量得到完整的概率分布表达形式。
在后续的公式推导中进行证明。
- η \eta η表示生成概率模型 P ( x ∣ η ) P(x \mid \eta) P(x∣η)的参数向量;
- h ( x ) h(x) h(x)仅表示关于 x x x的一个函数,在一些具体分布中(如高斯分布、伯努利分布)通常以常数形式出现;
- A ( η ) A(\eta) A(η)通常表示为 log \log log配分函数(对数配分函数)( log Partition Function \text{log Partition Function} log Partition Function),在指数族分布主要起归一化作用,其本质是关于模型参数 η \eta η的函数;
因此,指数族分布还有另一种常见表达形式(将 A ( η ) A(\eta) A(η)提出来):
P ( x ∣ η ) = h ( x ) exp { η T ⋅ ϕ ( x ) } ⋅ exp { − A ( η ) } = 1 exp { A ( η ) } ⋅ h ( x ) exp { η T ⋅ ϕ ( x ) } \begin{aligned} \mathcal P(x \mid \eta) & = h(x) \exp \left\{\eta^{T} \cdot \phi(x) \right\} \cdot \exp \{-A(\eta)\} \\ & = \frac{1}{\exp \{A(\eta)\}} \cdot h(x) \exp \left\{\eta^{T} \cdot \phi(x) \right\} \end{aligned} P(x∣η)=h(x)exp{ ηT⋅ϕ(x)}⋅exp{ −A(η)}=exp{ A(η)}1⋅h(x)exp{ ηT⋅ϕ(x)}
令 exp { A ( η ) } = Z \exp \{A(\eta) \} = \mathcal Z exp{ A(η)}=Z( Z \mathcal Z Z表示 配分函数);原始表示为:
1 Z h ( x ) ⋅ exp { η T ⋅ ϕ ( x ) } \frac{1}{\mathcal Z} h(x) \cdot \exp \{\eta^{T} \cdot \phi(x) \} Z1h(x)⋅exp{ ηT⋅ϕ(x)}
因此, A ( η ) = log Z A(\eta) = \log \mathcal Z A(η)=logZ。 这也是 A ( η ) A(\eta) A(η)对数配分函数的由来。
配分函数相关:
传送门
指数族分布应用广泛,如广义线性模型( Generalized Linear Model,GLM \text{Generalized Linear Model,GLM} Generalized Linear Model,GLM),概率图中的无向图模型如受限玻尔兹曼机( Restricted Boltzmann Machine,RBM \text{Restricted Boltzmann Machine,RBM} Restricted Boltzmann Machine,RBM)均存在指数族分布的理论支撑;
甚至在深度强化学习中,使用策略梯度方法求解强化学习任务时,需要使用 Softmax \text{Softmax} Softmax函数将离散型的动作映射成具有连续性质的指数族分布。
常见指数族分布
我们在概率论与数理统计中学习到的大部分分布都是指数族分布,下面列举一些常见分布:
- 高斯分布( Normal Distribution \text{Normal Distribution} Normal Distribution);
- 伯努利分布( Bernoulli Distribution \text{Bernoulli Distribution} Bernoulli Distribution);
- 二项分布( Binomial Distribution \text{Binomial Distribution} Binomial Distribution);
- 泊松分布( Poisson Distribution \text{Poisson Distribution} Poisson Distribution);
- 贝塔分布( Beta Distribution \text{Beta Distribution} Beta Distribution);
- 狄利克雷分布( Dirichlet Distribution \text{Dirichlet Distribution} Dirichlet Distribution);
- 伽马分布( Gamma Distribution \text{Gamma Distribution} Gamma Distribution)等等。
下面对伯努利分布、高斯分布、二项分布进行推导,观察经过变化后的分布和指数族分布统一格式之间的关联关系。
推导过程
-
伯努利分布:
P ( x ) = p x ⋅ ( 1 − p ) 1 − x = { p if x = 1 q if x = 0 \mathcal P(x) = p^x \cdot (1 - p)^{1-x} = \begin{cases} p \quad \text{if} \quad x = 1 \\ q \quad \text{if} \quad x = 0 \end{cases} P(x)=px⋅(1−p)1−x={ pifx=1qifx=0将上述公式进行变化:
- 插入 exp \exp exp并完全展开:
P ( x ) = p x ⋅ ( 1 − p ) 1 − x = exp { log [ p x ( 1 − p ) 1 − x ] } = exp { x ⋅ log [ p 1 − p ] + log ( 1 − p ) } \begin{aligned} \mathcal P(x) & = p^x \cdot (1 - p)^{1-x} \\ & = \exp \{\log \left[p^x(1 - p)^{1-x} \right] \} \\ & = \exp \left\{x \cdot \log \left[\frac{p}{1- p}\right] + \log (1- p) \right\} \end{aligned} P(x)=px⋅(1−p)1−x=exp{ log[px(1−p)1−x]}=exp{ x⋅log[1−pp]+log(1−p)} - 令 η = log p 1 − p \begin{aligned} \eta = \log\frac{p}{1 - p} \end{aligned} η=log1−pp,那么 p p p用 η \eta η表示为:
p = exp { η } 1 + exp { η } p = \frac{\exp \{\eta\}}{1 + \exp \{\eta \}} p=1+exp{ η}
- 插入 exp \exp exp并完全展开: