第二章：probability distribution

最新推荐文章于 2023-12-29 01:50:13 发布

weishenmetlc

最新推荐文章于 2023-12-29 01:50:13 发布

阅读量813

点赞数

分类专栏：模式识别与机器学习1-14章内容小结-bishop

本文链接：https://blog.csdn.net/weishenmetlc/article/details/51736780

版权

模式识别与机器学习1-14章内容小结-bishop 专栏收录该内容

18 篇文章 10 订阅

订阅专栏

1: Density Estimation: given a finite set $\textbf{x}_{1}...\textbf{x}_{N}$ of observations, find distribution $p(\textbf{x})$ of a random variable $\textbf{x}$ .

2: Parametric Distribution: assume a specific functional form for the distribution which is governed by a small number of adaptive parameters, such as the mean and variance in the case of Gaussian.

1): Frequentist Treatment: to choose specific values for the parameters by optimizing some criterion, such as the likelihood function.
2): Bayesian Treatment: to firstly introduce prior distributions over the parameters and then use Bayes’ theorem to compute corresponding posterior distribution given the observed data.

3: Nonparametric Density Estimation Method: the form of the distribution typically depends on the size of the data set. Such models contain parameters, but these control the model complexity rather than the form of the distribution.

4: Conjugate Priors: lead to posterior distributions having the same functional form as the prior. 先验函数中的参数称为超参数(hyperparameter)，其控制着假设变量 $\textbf{x}$ 服从的密度分布中的参数。

Distribution	Conjuage prior distribution
Bernoulli	Beta
Multinomial	Dirichlet
univariate gaussian, given variance, unknown mean	Gaussian
univariate gaussian, given mean, unknown variance	Gamma
univariate gaussian, unknown mean, unknown variance	gaussian-gamma
multivariate gaussian, given precision, unknown mean	Gaussian
multivariate gussian, given mean, unkonwn precision	Wishart
multivariate gaussian, unknown mean, unknown precision	normal-Wishart

2-1： Binary Variables:

1：假设单变量x只能取0和1这两个值，值为1的概率为u。则变量x对应的概率分布为 $Bern(x|u)=u^{x}(1-u)^{1-x}$ ，这称为伯努利分布， $E[x]=u, var[x]=u(1-u)$ 。

2：用极大似然法求解上述分布中的参数u：
假设我们有一个变量x的观察值数据集， $D=\{x_{1},x_{2}...x_{N}\}$ 。构造的似然函数为 $p(D|u)=\prod_{n=1}^{N} p(x_{n}|u)=\prod_{n=1}^{N}u^{x_{n}}(1-u)^{1-x_{n}}$ 。按照极大似然法，我们对该似然函数取对数，对参数u求导，得到 $u_{ML}=\frac{ \sum_{n=1}^{N}x_{n}}{N}$ 。如果我们以m代表x=1的观察次数，则按照极大似然法，从观察的数据集推出的参数u为m/N。

3：变量x=1的总次数m所服从的分布为 $Bin(m|N,u)=\frac{N!}{(N-m)!m!}u^{m}(1-u)^{N-m}$ 。 $E[m]=Nu, var[m]=Nu(1-u)$

4：参数u的先验分布： $Beta(u|a,b)=\frac{\Gamma{(a+b)}}{\Gamma{(a)}\Gamma{(b)}}u^{a-1}(1-u)^{b-1}$ 。 $E[u]=\frac{a}{a+b}, Var[u]=\frac{ab}{(a+b)^2(a+b+1)}$ 。参数a和b称为hyperparameters，其控制着参数u的分布。

因此参数u的后验分布为 $p(u|m,l,a,b)=\frac{\Gamma{(m+a+l+b)}}{\Gamma{(m+a)}\Gamma{(l+b)}}u^{m+a-1}(1-u)^{l+b-1} (l=N-m)$ .

后验分布与先验分布有着相同的形式的好处是当我们观察了下一个数据集D时，上一个数据集推出的后验分布能够被视为是下一个数据集的先验分布。这能够被应用于squential Bayesian inference, 也就是得到一个观察后，可以算出后验分布，由于后验分布与原来的先验分布有着相同的形式，因此这个后验分布能够作为新的先验分布，用于下一个观察的数据，如此迭代下去。对于数据流(stream of data)的情况，这种方式可以实现real-time learning。

2-2：multinomial variables

1：如果一个离散变量有k个可能态，我们可以用1-K scheme来表示，也就是这个离散变量可以用一个k维的矢量 $\vec x$ 来表示。如果变量取第i个态，则矢量中 $x_{i}$ 为1，其它的为0。如果我们令 $x_{k}$ 为1的概率为 $u_{k}$ ，则 $\vec x$ 的分布为 $p(\vec x|\vec u)=\prod_{k=1}^{K} {u_{k}}^{x_{k}}$ ，在这里 $\vec u=(u_{1}...u_{K})^T$ ，参数 $u_{k}$ 满足 $u_{k}>=0$ 并且 $\sum_{k}u_{k}=1$ 。

2：假设在N次观察中， $x_{k}=1$ 的次数为 $m_{k}$ ，则 $m_{1}, m_{2}...m_{k}$ 所服从的分布为 $Mult(m_{1},m_{2}...,m_{k}|\vec u, N)=\frac{N!}{m_{1}!m_{2}!...m_{k}!}\prod_{k=1}^{K}{u_{k}}^{m_{k}}$ ，其中 $\sum_{k=1}^{K}m_{k}=N$ 。

3：参数 $\vec u$ 的先验分布采取的形式为 $Dir(\vec u|\vec \alpha)=\frac{\Gamma{(\alpha_{0})}}{\Gamma{(\alpha_{1})}...\Gamma{(\alpha_{K})}} \prod_{k=1}^{K}u_{k}^{\alpha_{k}-1}$ 。

经过贝叶斯变换以及归一化后，参数 $\vec u$ 所得到的后验分布 $p(\vec u|D,\vec \alpha)=\frac{\Gamma{(\alpha_{0}+N})}{\Gamma{(\alpha_{1}+m_{1})}...\Gamma{(\alpha_{K}+m_{K})}}\prod_{k=1}^{K}{u_{k}}^{\alpha_{k}+m_{k}-1}$ 。

2-3：The Gaussian Distribution

1：单变量的高斯分布： $N(x|u,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}}exp\{-\frac{(x-u)^2}{(2\sigma^2)}\}$ .
对于一个D维矢量 $\vec x$ ，多变量高斯分布的形式为 $N(\vec x|\vec u, \Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp\{-\frac{1}{2}(\vec x- \vec u)^T\Sigma^{-1}(\vec x-\vec u)\}$ ，其中 $E[\vec x]=\vec u, cov[\vec x]=\Sigma$ 。

2：高斯分布的缺点：
（1）：参数太多，计算复杂（协方差矩阵的独立参数个数与维度D的平方同一量级）；
（2）：由于高斯分布是单峰的，因此不能刻画多峰的密度分布。
因此一方面高斯函数由于有太多的参数，所以很灵活，但另一方面，它有应用局限性。

为了解决缺点（2），离散的latent变量被介绍从而引入高斯混合模型（gaussian mixture)去刻画多峰问题。为了解决缺点（1），连续的latent变量被介绍去构造模型使该模型的自由参数数目不依懒于空间的维度D，然后依然能够很好的刻画数据之间的主要关联。

3：给定一个联合高斯分布 $N(\vec x|\vec u, \Sigma), \Lambda=\Sigma^{-1}$ ，并且 $\vec x=(\vec x_{a}, \vec x_{b})^T, \vec u=(\vec u_{a},\vec u_{b})^T$ 。

则条件分布 $p(\vec x_{a}|\vec x_{b})=N(\vec x| \vec u_{a|b}, \Lambda_{aa}^{-1})$ ，其中 $\vec u_{a|b}=\vec u_{a}-\Lambda_{aa}^{-1}\Lambda_{ab}(\vec x_{b}-\vec u_{b})$ 。
边际分布 $p(\vec x_{a})=N(\vec x_{a}|\vec u_{a}, \Sigma_{aa})$

4：假定 $\vec x$ 的分布为 $p(\vec x)=N(\vec x|\vec u, \Lambda^{-1})$ 。并且还给定在 $\vec x$ 一定的情况下， $\vec y$ 的条件分布为 $p(\vec y|\vec x)=N(\vec y|A\vec x+\vec b,L^{-1})$ （这是线性高斯模型的一个例子），则 $p(\vec y)=N(\vec y|A\vec u+\vec b, L^{-1}+A\Lambda^{-1}A^T)$ , $p(\vec x|\vec y)=N(\vec x|\Sigma{A^TL(\vec y-\vec b)+A\vec u},\Sigma)$ where $\Sigma=(\Lambda+A^TLA)^{-1}$

5: 给定一个数据集 $\textbf{X}=(\textbf{x}_{1},...,\textbf{x}_{n})^T$ ，并且假定观察结果 ${\textbf{x}_{n}}$ 是从多变量高斯分布中独立得到的。有了这个数据集，我们能够用极大似然法去推断多变量高斯函数中的参数。最终得到的结果是 $\vec u_{ML}=\frac{1}{N}\sum_{n=1}^{N}\textbf{x}_{n}, \Sigma_{ML}=\frac{1}{N}\sum_{n=1}^{N}(\vec x_{n}-\vec u_{ML})(\vec x_{n}-\vec u_{ML})^T$

6：我们之前谈论过，当贝叶斯方法应用于sequential method时，我们在一次观察后算出后验分布，然后当处理下一次观察时，把上次得到的后验分布当做这一次的先验分布，以此类推。

当我们把极大似然法应用于sequential method时，假设我们有一个单变量的密度分布 $p(x|\theta)$ ，在这里 $\theta$ 是密度分布的参数。应用Robbins-Monro算法，我们能够推出 $\theta^{N}=\theta^{N-1}+a_{N-1}\{\frac{\partial}{\partial\theta}ln p(x|\theta)/_{\theta=\theta^{N-1}, x=x_{N}}\}$ 。用这个公式即可sequentially求解极大似然问题，在这个公式中， $\theta^{N-1}$ 表示的是基于前N-1个观测得出的值， $x_{N}$ 表示的是第N次的观测值，因子 $a_{N}$ 要满足 $\lim_{N\to\infty} a_{N}=0, \sum_{N=}^{\infty}a_{N}=\infty, \sum_{N=1}^{\infty} a_{N}^{2}<\infty$ 这三个条件。