18-指数族分布

最新推荐文章于 2023-04-09 21:45:29 发布

取个名字真难呐

最新推荐文章于 2023-04-09 21:45:29 发布

阅读量829

点赞数

分类专栏： pytorch

本文链接：https://blog.csdn.net/scar2016/article/details/117600346

版权

pytorch 专栏收录该内容

148 篇文章 25 订阅

订阅专栏

文章目录

1.指数族分布通用形式
- 1.1 配分函数定义
- 1.2指数族分布中的配分函数
2.指数族分布特点
3.高斯分布的指数族形式转换
- 3.1高斯转换详细步骤：
4.对数配分函数 $A'(\eta),A''(\eta)$
- 4.1用高斯分布验证
5.极大似然估计
6.最大熵原理
- 6.1在无信息先验下最大熵分布为均匀分布
- 6.2满足已知事实的情况下的最大熵分布是指数族分布

指数族分布主要是指的一类分布，只需要它们都是满足一种形式即可，比如我们常见的指数族分布有：

Guassian 分布
Bernoulli 分布 (类别分布)
二项分布 (多项式分布)
泊松分布
Beta 分布
Dirichlet 分布
Gamma 分布
Gibbs 分布

1.指数族分布通用形式

$p(x|\eta)=h(x)exp^{[\eta^T\phi(x)-A(\eta)]}\tag{1}$

$\eta:参数向量，\eta,x\in \mathbb{R}^P$
$A(\eta):\log{(partition-function(配分函数)}$
$h (x) : 只跟 x 有关，在处理的时候通常令 h (x) = 1, 通常不那么重要$

1.1 配分函数定义

配分函数来源于统计物理学，在这里其实就是一个归一化因子，它仅仅只是从计算角度来看，为了让 $P(X|\theta)$ 是一个概率分布；让概率密度 $\hat{p}(x|\theta)$ 对x进行积分求和时为1；
$我们定义：p(x|\theta)=\frac{1}{z}\hat{p}(x|\theta)\tag{2}$
$两边同时对x求积分：\int p(x|\theta)dx=\int\frac{1}{z}\hat{p}(x|\theta)dx\tag{3}$
$因为：\int p(x|\theta)dx=1；\int\frac{1}{z}\hat{p}(x|\theta)dx=\frac{1}{z}\int\hat{p}(x|\theta)dx\tag{4}$
$所以：z=\int\hat{p}(x|\theta)dx\tag{5}$

1.2指数族分布中的配分函数

$\because p(x|\eta)=h(x)exp^{[\eta^T\phi(x)-A(\eta)]}$
$\therefore p(x|\eta)=h(x)exp^{[\eta^T\phi(x)]}exp^{(-A(\eta))}$
$\therefore p(x|\eta)=\frac{1}{exp^{A(\eta)}}h(x)exp^{[\eta^T\phi(x)]}$
$\therefore 我们可以令exp^{A(\eta)}=z;h(x)exp^{[\eta^T\phi(x)]}=\hat{p}(x|\eta)$
$\therefore A(\eta)=\log z;且z为配分函数。$
$A(\eta)=\log {\int h(x)exp^{\eta^T\phi(x)}dx}\tag{6}$

2.指数族分布特点

在这里插入图片描述

2.1 充分统计量[人大代表]

由于我们知道指数族分布的一般形式为：
$p(x|\eta)=h(x)exp^{[\eta^T\phi(x)-A(\eta)]}\tag{7}$

$\phi(x)$ ：充分统计量

我们定义充分统计量为一个样本的函数，是对样本的加工。如果我们有了统计量，那么我们可以用这个统计量来表达样本的完整的信息。甚至我们可以丢弃掉样本。

举例：

我们定义样本服从高斯分布(Guassian-Distribution)，样本数据为： ${x_1,x_2,...,x_N\}$

我们令 $\phi(x)=\begin{pmatrix} \sum_{i=1}^{N}x_i\\\\\sum_{i=1}^{N}x_i^2 \end{pmatrix}$ ，我们可以用 $\phi(x)$ 来表达高斯分布的 $\theta=(\mu,\Sigma)$ ,直接用它来生成一个与原分布一样的分布；

它的好处是，我们在机器学习中的Online-Learning(在线学习)非常有用，我们只需要用少量的数据 $\phi(x)$ 就可以表达出样本数据，起到压缩数据的作用。

2.2 共轭

共轭是一种比较方便的方法，其主要思想是假设给定一个似然分布 $p (x ∣ z)$ ，且似然具有一个自身共轭的先验 $p (z)$ ,那么就会得到 $p (z)$ 与p(z|x)具有相同的分布形式
例：
$\propto p(x|z)p(z)\tag{8}$

$如果 p (x ∣ z) 与 p (z) 共轭，且 p (z) 服从 B e t a 分布，那么 p (x ∣ z) 也服从 B e t a 分布$

贝叶斯定理：
$p(z|x)=\frac{p(x|z)p(z)}{\int_z p(x|z)p(z)dz}\tag{9}$

$p (z ∣ x)$ ：后验概率
$p (x ∣ z)$ : 似然概率
$p (z)$ ：先验概率

我们推断的主要问题是积分难的问题,由于我们知道通常情况下 $\int_z p(x|z)p(z)dz$ 一般求解不出来的，或者 $p (z ∣ x)$ 形式特别复杂，导致我们很难算出 $\mathbb{E}_{p(z|x)}[f(z)]$ ,为了解决上述问题通常有如下方式：

近似推断：直接来求出后验 $p(z|x)和\mathbb{E}_{p(z|x)}[f(z)]$

变分
MCMC

变分：用一个简单的方式去拟合一个复杂的分布，从而得到关于 $p (z ∣ x)$ 的近似分布形式

采样：蒙特卡洛采样中的序列蒙特卡洛(SMC)与马尔可夫链蒙特卡洛(MCMC)是直接求解 $\mathbb{E}_{p(z|x)}[f(z)]$ ；其主要是用来求解一些不易求积分的问题。

2.3 最大熵(无信息先验)

在给定限制条件下，对未知的部分假设它们是等可能发生的，我们就用最大熵的量化这种等可能性。对于贝叶斯理论来说，我们往往需要给先验p(z)一个分布，常常遵循如下方：

共轭：为了计算方便
最大熵：为了解决无信息先验问题
Jerrif.

2.4 广义线性模型

广义线性模型提出来主要是为了解决分类和回归问题，它有三个基本的概念

线性组合： $w^Tx$
链接函数(Link-Function)—> $激活函数)^{-1}$ ;注：激活函数的反函数
指数族分布： $y|x\sim指数族分布$
1）线性回归：当假设噪声服从高斯分布时，可以得到 $y|x\sim N(\mu,\Sigma)$
2）二分类问题：
2.1) $y|x\sim Bernoulli分布$
2.2) $y|x\sim Possion分布$

2.5 概率图模型

概率图模型中包含如下：

无向图：受限玻尔兹曼机RBM(Restricted Boltzmann Machine)

2.6 变分推断

指数族分布在变分推断中占据了十分重要的地位，如果分布满足指数族分布，那么会让变分推断大大的简化。

3.高斯分布的指数族形式转换

我们需要将高斯分布的密度函数转换成通用指数族分布的形式：
$高斯：p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}\Longrightarrow 指数族：p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{10}$

3.1高斯转换详细步骤：

$\because p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}$

$\therefore p(x|\mu,\sigma^2)=exp\{-\frac{1}{2}\log(2\pi\sigma^2)\}exp\{-\frac{x^2-2x\mu+\mu^2}{2\sigma^2}\}$

$\therefore p(x|\mu,\sigma^2)=exp\{-\frac{1}{2\sigma^2}(-2\mu,1)\begin{pmatrix} x\\\\x^2 \end{pmatrix}-(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log(2\pi\sigma^2))\}$
$\therefore p(x|\mu,\sigma^2)=exp\{(\frac{\mu}{\sigma^2},-\frac{1}{2\sigma^2})\begin{pmatrix} x\\\\x^2 \end{pmatrix}-(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log(2\pi\sigma^2))\}$
我们将上述形式转换成指数族分布可得如下：
$\eta=\begin{pmatrix} \eta_1\\\\\eta_2 \end{pmatrix}=\begin{pmatrix} \frac{\mu}{\sigma^2}\\\\-\frac{1}{2\sigma^2} \end{pmatrix}\Longrightarrow \eta_1=\frac{\mu}{\sigma^2};\eta_2=-\frac{1}{2\sigma^2}$

$\mu=-\frac{\eta_1}{2\eta_2};\sigma^2=-\frac{1}{2\eta_2}\tag{11}$
我们可以将 $A(\eta)=(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log(2\pi\sigma^2))化简为含\eta_1,\eta_2的式子：$
$A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})}\tag{12}$
综上所述：

指数族分布形式：
$p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{13}$
$h(x)=1\tag{13}$
$\eta=\begin{pmatrix} \frac{\mu}{\sigma^2}\\\\-\frac{1}{2\sigma^2} \end{pmatrix}\tag{13}$
$\phi(x)=\begin{pmatrix} x\\\\x^2 \end{pmatrix}\tag{13}$
$A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})}\tag{13}$

4.对数配分函数 $A'(\eta),A''(\eta)$

我们已知指数族分布的一般形式为：
$p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{14}$
步骤如下：

$p(x|\eta)=\frac{1}{exp\{A(\eta)\}}h(x)exp\{[\eta^T\phi(x)]\}$

两边对x进行积分

$\int p(x|\eta)dx=\int \frac{1}{exp\{A(\eta)\}}h(x)exp\{[\eta^T\phi(x)]\}dx=1$

因为： $\int p(x|\eta)dx=1,并整理上式可得：$

$\int h(x)exp\{[\eta^T\phi(x)]\}dx=exp\{A(\eta)\}$

等式两边对 $\eta$ 求导可得：

$\int h(x)exp\{[\eta^T\phi(x)]\}\phi(x)dx=exp\{A(\eta)\}A'(\eta)$

整理上式可得：

$A'(\eta)=\frac{\int h(x)exp\{[\eta^T\phi(x)]\}\phi(x)dx}{exp\{A(\eta)\}}=\int h(x)exp\{\eta^T\phi(x)-A(\eta)\}\phi(x)dx=\mathbb{E}_{p(x|\eta)}[\phi(x)]$

结论：
$A'(\eta)=\mathbb{E}_{x\sim p(x|\eta)}[\phi(x)]\tag{15}$
$A''(\eta)=\mathbb{Var}_{x\sim p(x|\eta)}[\phi(x)]\tag{16}$
注：由于 $A''(\eta)=\mathbb{Var}_{x\sim p(x|\eta)}[\phi(x)]，且\mathbb{Var}_{x\sim p(x|\eta)}[\phi(x)]\geq0;所以A''(\eta)\geq0;故为凸函数$

4.1用高斯分布验证

由前面我们的推断高斯密度函数中得到公式<13>
指数族分布形式：
$p(x|\eta)=h(x)exp\{[\eta^T\phi(x)-A(\eta)]\}\tag{13}$
$h(x)=1\tag{13}$
$\eta=\begin{pmatrix} \frac{\mu}{\sigma^2}\\\\-\frac{1}{2\sigma^2} \end{pmatrix}\tag{13}$
$\phi(x)=\begin{pmatrix} x\\\\x^2 \end{pmatrix}\tag{13}$
$A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})}\tag{13}$
那么我们求:
$\mathbb{E}[\phi(x)]=\begin{pmatrix} \mathbb{E}[x]\\\\\mathbb{E}[x^2] \end{pmatrix}$
又因为， $A'[\eta_1]=\mathbb{E}[\phi(x_1)];且\mathbb{E}[\phi(x_1)]= \mathbb{E}[x_1]=\mu$

那么我们就验证 $A'[\eta_1]是否等于\mu$

$\because A(\eta)=-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log{(-\frac{\pi}{\eta_2})}$

对 $\eta_1求偏导可得：$

$A'[\eta_1]=-\frac{\eta_1}{2\eta_2}$

将 $\eta_1=\frac{\mu}{\sigma^2};\eta_2=-\frac{1}{2\sigma^2}$ 代入上式可得：

$A'[\eta_1]=\mu$

$故A'(\eta)=\mathbb{E}_{x\sim p(x|\eta)}[\phi(x)]成立$

5.极大似然估计

我们定义一组数据集： $D=\{x_1,x_2,...,x_N\}$ ,我们要求极大似然估计 $\eta_{MLE}$

已知：
$\eta_{MLE}=argmax \log \prod_{i=1}^{N}p(x_i|\eta)\tag{14}$
$p(x_i|\eta)=h(x_i)exp^{[\eta^T\phi(x_i)-A(\eta)]}\tag{15}$

详解：

$\because \eta_{MLE}=argmax \log \prod_{i=1}^{N}h(x_i)exp^{[\eta^T\phi(x_i)-A(\eta)]}$

$\therefore \eta_{MLE}=argmax \sum_{i=1}^{N}\log [h(x_i)exp^{[\eta^T\phi(x_i)-A(\eta)]}]$

$\therefore \eta_{MLE}=argmax \sum_{i=1}^{N}[\log [h(x_i)]+{[\eta^T\phi(x_i)-A(\eta)]}]$

$\because h(x_i)与\eta_{MLE}无关，所以在后续求偏导中为零，可以忽略。$

$\therefore \eta_{MLE}=argmax \sum_{i=1}^{N}{[\eta^T\phi(x_i)-A(\eta)}]$

求偏导可得：

$\therefore \frac{\partial \eta_{MLE}}{\partial \eta}=argmax \sum_{i=1}^{N}[\phi(x_i)-A'(\eta)]=0$

$\therefore A'(\eta_{MLE})=\frac{1}{N}\sum_{i=1}^{N}\phi(x_i)$

$注：A'(\eta_{MLE})为\eta_{MLE}的函数，所以，我们可以通过反解A'(\eta_{MLE})求解\eta_{MLE}$

$结论：对于求解\eta_{MLE}时，我们只需要求解\frac{1}{N}\sum_{i=1}^{N}\phi(x_i)即可，不需要保留整个样本。神奇！$

6.最大熵原理

6.1在无信息先验下最大熵分布为均匀分布

熵的定义：用来衡量信息反映的信息量的多少的单位；一个系统越有序，信息熵越低，一个系统越无序，信息熵越高。
我们定义一个随机变量发生的概率为p,那么它的信息量为 $-\log p$ ;比如说当p=1时，那么这个系统已经确定了，所以它的信息量为0；

熵的为信息量 $-\log p$ 关于分布p(x)的期望：
$熵=\mathbb{E}_{p(x)}[-\log p]=\int -p(x)\log p(x)dx=-\sum_{x}p(x)\log p(x)=\tag{16}$
最大熵的就是让一个分布尽最大可能满足等可能性，这里我们先讨论没有任何约束条件下的最大熵；
$H(x)=-\sum_{x}p(x)\log p(x)\tag{17}$
我们定义分布满足如下：
在这里插入图片描述

由上表可得 $\sum_{i=1}^{N}p_i=1$

我们的目标是求在满足条件 $\sum_{i=1}^{N}p_i=1$ 的情况下，要求 $H (x)$ 的最大值;用数学表达如下：
$H(X)=argmax[-\sum_{x}p(x)\log p(x)]=argmim[\sum_{x}p(x)\log p(x)]\tag{18}$
$s.t：\sum_{i=1}^{N}p_i=1\tag{18}$
$注：p=(p_1,p_2,...,p_N)^T$

将上述带约束问题的极值问题转换成拉格朗日乘子式可得：
$L(p,\lambda)=\sum_{i=1}^{N}p(x_i)\log p(x_i)+\lambda(1-\sum_{i=1}^{N}p(x_i))\tag{19}$
$令：\frac{\partial L(p,\lambda)}{\partial p(x_i)}=0\tag{20}$
$\frac{\partial L(p,\lambda)}{\partial p(x_i)}=\log p(x_i)+1-\lambda=0\tag{21}$
解得：
$\hat{p}{(x_i)}=exp\{\lambda-1\}$
因为 $\lambda$ 为常数，所以我们可以得到如下：
$\hat{p_1}=\hat{p_2}=...=\hat{p_N}=\frac{1}{k}\tag{22}$
结论：由此可得：当在无任何约束条件下的分布，如果要满足最大熵条件，那这个分布是均匀分布。

6.2满足已知事实的情况下的最大熵分布是指数族分布

已知：指数族分布的概率密度函数如下：
$p(x_i|\eta)=h(x_i)exp{[\eta^T\phi(x_i)-A(\eta)]}\tag{23}$
为了方便计算可简化成如下：
$p(x_i|\eta)=\frac{1}{Z(\eta)}h(x_i)exp{[\eta^T\phi(x_i)]}\tag{24}$
经验分布就是指的是一个已经发生的事实的一组数据；现在的问题是怎样用数学的方式来表达一个既定事实。
我们先定义一组基本数据集 $D=\{x_1,x_2,...,x_N\}$

经验分布的概率密度函数：

$\hat{P}(X=x)=\hat{p}(x)=\frac{count(x)}{N}\tag{25}$

$c o u n t (x) : 表示发生 X = x 事件的个数$
$\hat{p}(x)是指X=x发生的概率大小$
有了概率大小，有了x值，那么我们就能根据期望和方差的定义求出 $\mathbb{E}_{\hat{p}}[x],\mathbb{D}_{\hat{p}}[x]$ ,我们假设存在任意一组映射满足 $y_i=f_i{x}$ ,即：
$f(x)=\begin{pmatrix} f_1(x)\\f_2(x)\\\vdots\\f_Q(x) \end{pmatrix}\tag{26}$
由于我们知道了 $\mathbb{E}_{\hat{p}}[x],\mathbb{D}_{\hat{p}}[x]$ ，那么我们肯定求得如下值：
$\mathbb{E}_{\hat{p}}[f(x_i)]=\triangle_i;注：\triangle_i是已知事实\tag{27}$
$\triangle_i= \begin{pmatrix} \triangle_1\\\triangle_2\\\vdots\\\triangle_Q \end{pmatrix}\tag{28}$
且我们知道最大熵H(x)可表示如下：
$H(x)=-\sum_{x}p(x)\log p(x)\tag{29}$
以上的最大值约束问题我们用拉格朗日乘子法转换成优化问题：

原始模型：
$目标函数：argmin\sum_{x}p(x)\log p(x)\tag{30}$
$约束条件(1)：\sum_{i=1}^{N}p(x)=1\tag{31}$
$约束条件(2)：\mathbb{E}_p[f(x)]=\mathbb{E}_{\hat{p}}[f(x)]=\triangle\tag{32}$

用拉格朗日乘子法来求带约束的方程的极值：
$L(p,\lambda,\lambda_0)=\sum_{i=1}^{N}p(x_i)\log p(x_i)+\lambda_0(1-\sum_{i=1}^{N}p(x_i))+\lambda^T(\triangle-\mathbb{E}_{p}[f(x)])\tag{33}$
注： $\mathbb{E}_{\hat{p}}[f(x)])=\sum_{x}p(x)f(x);\frac{\partial \mathbb{E}_{\hat{p}}[f(x)]) }{\partial p(x)}=f(x)$

$L(p,\lambda,\lambda_0)对p(x_i)求偏导可得：$

$令：\frac{\partial L(p,\lambda,\lambda_0) }{\partial p(x_i)}=0\tag{34}$

由于我们是对N个中的 $X=x_i$ 进行求导，所以其他项为常数，其倒数为零；

$\log p(x_i)+1-\lambda_0-\lambda^Tf(x_i)=0\tag{35}$
$\hat{p}(x_i)=exp\{\lambda^Tf(x_i)-(\lambda_0-1)\}\tag{36}$
上式是不是很想我们通用的指数族分布：
$p(x_i|\eta)=h(x_i)exp{[\eta^T\phi(x_i)-A(\eta)]}\tag{37}$
<36>式类比于<37>中的 $h(x_i)=1；\eta=\lambda;A(\eta)=\lambda_0-1$

结论：
$在满足已知事实的情况下的最大熵分布是指数族分布！！！$

取个名字真难呐

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
18-指数族分布

文章目录1.指数族分布通用形式1.1 配分函数定义1.2指数族分布中的配分函数2.指数族分布特点2.1充分统计量指数族分布主要是指的一类分布，只需要它们都是满足一种形式即可，比如我们常见的指数族分布有：Guassian 分布Bernoulli 分布 (类别分布)二项分布 (多项式分布)泊松分布Beta 分布Dirichlet 分布Gamma 分布Gibbs 分布1.指数族分布通用形式p(x∣η)=h(x)exp[ηTϕ(x)−A(η)](1)p(x|\eta)=h(x)exp^{[
复制链接

扫一扫