机器学习笔记之指数族分布——最大熵角度观察指数族分布(二)最大熵定理与指数族分布的关系

机器学习笔记之指数族分布——最大熵原理与指数族分布的关系

引言

上一节介绍了熵的基本概念以及最大熵思想,本节将介绍最大熵原理指数族分布之间的关联关系

回顾:最大熵思想示例

最大熵思想本质上是探究概率分布的一种工具,基于一个概率模型 P ( x ∣ θ ) \mathcal P(x \mid \theta) P(xθ),如果其概率分布未知(没有任何约束概率分布的条件)、仅通过最大熵思想探究概率分布,发现满足熵最大的概率分布是均匀分布
虽然没有任何约束条件,但是‘概率分布自身定义’还是要遵守的。
∑ i = 1 k P ( x ( j ) = x i ) = 1 x ( j ) ∈ X \sum_{i=1}^k \mathcal P \left(x^{(j)} = x_i \right) = 1 \quad x^{(j)} \in \mathcal X i=1kP(x(j)=xi)=1x(j)X
但实际情况可能是:概率分布依然是未知,但存在关于概率分布的约束条件。这意味着:仅仅使用最大熵思想对概率分布进行表述是不完整。此时需要引入一个新的概念:最大熵原理

最大熵原理

最大熵原理主要针对有约束条件的概率分布进行求解。具体表述:在概率分布存在约束条件的情况下,满足约束条件下熵最大的分布就是求解的概率分布

约束条件与经验概率分布

观察上面表述,什么叫做 概率分布存在约束条件?换句话说,这个约束条件是从哪里体现出来的?

我们在极大似然估计与最大后验概率估计中介绍过: P ( X ∣ θ ) \mathcal P(\mathcal X \mid \theta) P(Xθ)既可以看作概率分布,也可以看作概率模型 P \mathcal P P以模型参数 θ \theta θ生成了大量样本,从而产生数据集合 X \mathcal X X
模糊‘概率分布’与‘概率模型’之间的界限;

因此,概率分布的约束条件,或者说概率分布约束条件的表现形式自然是 一个个具体的样本。假设一个数据集合 X \mathcal X X包含 N N N个样本:
X = { x ( 1 ) , x ( 2 ) , ⋯   , x ( N ) } \mathcal X = \left\{x^{(1)},x^{(2)},\cdots,x^{(N)} \right\} X={ x(1),x(2),,x(N)}

仅仅是有样本是不够的,如何将这些样本转换为约束概率分布的条件?引入一个概念:经验概率分布( Empirical Probability Distribution \text{Empirical Probability Distribution} Empirical Probability Distribution)。

经验概率分布是指特定事件发生的次数占总体实验样本的比例。经验概率分布的概率密度函数表示如下:
P ^ ( x ( j ) = x i ) = count ( x i ) N i = 1 , 2 , ⋯   , k ; x ( j ) ∈ X \hat {\mathcal P}(x^{(j)} = x_i) = \frac{\text{count}(x_i)}{N}\quad i=1,2,\cdots,k;x^{(j)} \in \mathcal X P^(x(j)=xi)=Ncount(xi)i=1,2,,k;x(j)X

其中 x i x_i xi表示样本的第 i i i个值, count ( x i ) \text{count}(x_i) count(xi)表示统计样本第 i i i个值出现的次数
需要注意的是:这里 x i x_i xi是指随机变量,而不是具体样本。
示例:数据集合 X 0 \mathcal X_0 X0共包含6个样本:
X 0 = { 4 , 5 , 5 , 6 , 6 , 6 } \mathcal X_0 = \{4,5,5,6,6,6\} X0={ 4,5,5,6,6,6}
上述集合共包含3种值:
x 1 = 4 , x 2 = 5 , x 3 = 6 x_1 = 4,x_2 = 5,x_3 = 6 x1=4,x2=5,x3=6
则有如下的经验概率分布
P ^ ( X 0 ) = ( P ^ ( x ( j ) = x 1 ) P ^ ( x ( j ) = x 2 ) P ^ ( x ( j ) = x 3 ) ) = ( 0.16 0.33 0.5 ) x ( j ) ∈ X 0 \hat {\mathcal P}(\mathcal X_0) = \begin{pmatrix} \hat {\mathcal P}(x^{(j)} = x_1) \\ \hat {\mathcal P}(x^{(j)} = x_2) \\ \hat {\mathcal P}(x^{(j)} = x_3) \end{pmatrix} = \begin{pmatrix} 0.16 \\ 0.33 \\ 0.5 \end{pmatrix} \quad x^{(j)} \in \mathcal X_0 P^(X0)= P^(x(j)=x1)P^(x(j)=x2)P^(x(j)=x3) = 0.160.330.5 x(j)X0

这种概率分布最显著的特点该分布是单纯通过实际实验归纳得到,不掺杂理论取样。即计算概率分布使用的样本,均为真实样本。
在真实环境中,绝大多数情况都是通过有限样本进行归纳(经验分布)去逼近理想状态下的真实分布,弊端是‘经验分布’和‘真实分布’之间总是存在差距;优势在于简化运算,概率分布结果只与有限样本相关。

引入经验概率分布的背后意义在于概率分布完全取决于数据集合 X \mathcal X X

经验概率分布本质上依然是概率分布,通过该概率分布可以求解期望、方差等 数字特征。定义 P ^ ( x ( j ) = x i ) \hat {\mathcal P}(x^{(j)}=x_i) P^(x(j)=xi)某样本 x ( j ) x^{(j)} x(j)等于某具体数值 x i x_i xi概率密度函数
x ( j ) x^{(j)} x(j)表示为数据集合 X \mathcal X X内的任意一个样本;这里关于 E P ^ ( X ) [ X ] \mathbb E_{\hat {\mathcal P}(\mathcal X)}[\mathcal X] EP^(X)[X]是描述随机变量的期望信息。

E P ^ ( X ) [ X ] = ∑ x i ∈ X P ^ ( x ( j ) = x i ) ⋅ x i i = 1 , 2 , ⋯   , k Var P ^ ( X ) [ X ] = E P ^ ( X ) [ X 2 ] − [ E P ^ ( X ) [ X ] ] 2 \begin{aligned} \mathbb E_{\hat {\mathcal P}(\mathcal X)}[\mathcal X] & = \sum_{x_i \in \mathcal X} \hat {\mathcal P}(x^{(j)} = x_i) \cdot x_i \quad i=1,2,\cdots,k \\ \text{Var}_{\hat {\mathcal P}(\mathcal X)}[\mathcal X] & = \mathbb E_{\hat {\mathcal P}(\mathcal X)}[\mathcal X^2] - \left[\mathbb E_{\hat {\mathcal P}(\mathcal X)}[\mathcal X]\right]^2 \end{aligned} EP^(X)[X]VarP^(X)[X]=xi

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值