PRML学习总结之2------概率分布之一

最新推荐文章于 2022-11-16 19:51:48 发布

bjy_fighting

最新推荐文章于 2022-11-16 19:51:48 发布

阅读量732

点赞数

分类专栏： PRML学习心得文章标签： PRML Beta

本文链接：https://blog.csdn.net/bjy_fighting/article/details/50558134

版权

PRML学习心得专栏收录该内容

5 篇文章 0 订阅

订阅专栏

PRML学习总结之2——概率分布之一

本章主要介绍一些重要的概率分布，包括伯努利分布与二项分布，多项式分布，Beta分布，Dirichlet分布以及Gaussian分布。其中详细介绍了Gaussian分布。同时介绍了指数家族（The Exponential Family）的一些性质。最后介绍了两种无参数的方法：核密度估计以及KNN。

基本的知识

1.先验分布（prior distribution）

　　即进行观察实验之前，凭借先验知识，假定的一个分布。

2.后验分布（posterior distribution）

进行观测试验后，根据观测值对先验分布修正后所得到的分布。其中根据Bayesian定理：
后验分布~先验*似然

3.共轭先验（conjugate prior）

即先验分布与似然函数有相同的函数形式（下文具体讲解）。提出共轭先验的原因如下：通常我们利用Bayesian定理求解后验分布时，由于需要先验*似然函数，计算量往往很大，甚至会有无法求解的情况出现。但如果先验分布与似然函数有相同的函数形式，计算后验分布就十分简单了。

4.含参数方法（parameteric method）与无参数方法（non-parameteric method）

　　主要是指概率分布是否由一些参数控制，如Gaussian分布（由 $\mu$ 、 $\sigma$ 控制 )，故为含参分布，利用Gaussian分布所使用的方法即为含参方法）；无参方法则如KNN，其不受参数控制。

伯努利分布（Bernouli Distribution）与贝塔分布（Beta Distribution）

　　之所以将两个分布放在一起是因为两者为共轭先验分布，从下面分析可以看出。

1.Bernouli Distribution

　　假设抛一枚硬币，记为事件 X，正面朝上（X = 1）的概率为 $\mu$ , 则反面朝上（X= 0）的概率为 $1-\mu$ 。这样X就服从伯努利分布，记作：

B e r n (x | μ) = μ x (1 - μ) 1 - x

$Bern(x|\mu) = \mu^x(1 - \mu)^{1 - x}$
现在假设有随机样本集

D={x1,...xN} $D = \{x_1, ...x_N\}$ 相互独立，且都服从伯努利分布，我们可以很容易写出似然函数：

p (D | μ) = \prod n = 1 N p (x n | μ) = \prod n = 1 N μ x n (1 - μ) 1 - x n

$p(D|\mu) = \prod^N_{n = 1}p(x_n|\mu) = \prod^N_{n = 1} \mu^{x_n}(1 - \mu)^{1 - x_n}$
通过计算可以得到参数

μ $\mu$ 的似然估计值为：

μ M L = 1 N \sum n = 1 N x n

$\mu_{ML} = \frac{1}{N}\sum^N_{n = 1}x_n$
若对抛硬币做N次独立重复试验，假设有m次正面朝上，则该分布变为了二项分布（binomial distribution），记作：

B i n (m | N, μ) = C m N μ m (1 - μ) N - m

$Bin(m|N, \mu) = C^m_N\mu^m(1 - \mu)^{N - m}$ 其中期望

E[m]=Nμ $E[m] = N\mu$ , 方差

var[m]=Nμ(1−μ) $var[m] = N\mu(1 - \mu)$

2.Beta Distribution

　　上部分讲到伯努利分布，并且用最大似然估计估计出了参数，我们在第1章的时候就已经了解到最大似然估计很容易出现过拟合的现象。并且用Bayesian的方法可以有效的解决这一问题，但Bayesian方法虽好，由于需要假设先验分布，并且要计算与似然函数的乘积，因此十分复杂。有没有什么方法可以解决这一问题呢？答案是肯定的，我们前面提到过共轭先验的问题。只要先验分布与似然函数形式相同，计算量便可以大大降低，基于伯努利分布的似然函数的形式，我们引入Beta分布作为参数 $\mu$ 的先验分布，记作：

B e t a (μ | a, b) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a - 1 (1 - μ) b - 1

$Beta(\mu|a, b) = \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)}\mu^{a -1}(1 - \mu)^{b - 1}$
其中

Γ(x)=∫∞0μx−1e−μdu $\Gamma(x) = \int^\infty_0\mu^{x -1}e^{-\mu}du$ 成为伽马函数,

a,b $a,b$ 一般被称作超参数（hyperparameter）
Beta函数的期望与方差为：

E [μ] = a a + b

$E[\mu] = \frac{a}{a + b}$

v a r [μ] = a b ( a + b ) 2 ( a + b + 1 )

$var[\mu] = \frac{ab}{(a + b)^2(a + b +1)}$
得到先验分布后，根据Bayesian定理，我们可以很容易求出后验分布,假设前面提及的样本集D中，正面朝上即（

xi=1) $x_i = 1)$ 的个数为m, 反面朝上即（

xi=0 $x_i = 0$ )的个数为

l=N−m $l = N - m$ ,则后验分布有这样的形式：

p (μ | m, l, a, b) = Γ ( m + a + l + b ) Γ ( m + a ) Γ ( l + b ) μ m + a - 1 (1 - μ) l + b - 1

$p(\mu|m, l, a, b) = \frac{\Gamma(m + a + l + b)}{\Gamma(m + a)\Gamma(l + b)}\mu^{m + a - 1}(1 - \mu)^{l + b -1}$ 我们注意到后验分布符合先验分布的形式，故也属于Beta分布。且根据概率的加法和乘法定理,并且由Beta分布的性质可知：

p (x = 1 | D) = \int 10 p (x = 1 | μ) p (μ | D) d μ = \int 10 μ p (μ | D) d μ = E [μ | D] = m + a m + a + l + b

$p(x = 1|D) = \int^1_0p(x = 1|\mu)p(\mu|D)d\mu = \int^1_0\mu p(\mu|D)d\mu = E[\mu|D] = \frac{m + a}{m + a + l + b}$ 。也就是说后验分布

p(x=1|D) $p(x = 1|D)$ 仅仅等于x = 1的样本个数除以总的样本数（包括先验观测值）。因此分析起来就十分方便，这也是利用共轭先验的好处。图1(a) - 图1(d)所示是不同的

a,b,m,l $a, b, m, l$ ,后验分布的变化情况。通过观察图形，我们发现随着

m,l $m,l$ , 即观测样本的增加函数图形越来越陡且窄，尖峰（sharply peaked）的情况越来越明显，这表明通过增加观测样本，

μ $\mu$ （范围是[0, 1]）可取的范围越来越小。因此，我们对

μ $\mu$ 估计的准确性大大提高。
这里写图片描述

R语言代码如下所示：

plotBeta <- function(){
  #生成序列点
  x = seq(0, 1, length.out = 100)

  #生成4个图形的y值 
  y1 <- dbeta(x, 0.1, 0.2)
  y2 <- dbeta(x, 2, 1)
  y3 <- dbeta(x, 30, 40)
  y4 <- dbeta(x, 150, 100)

  #绘制图形
  plot(x, y1, col = "yellow", xlim = c(0,1), ylim = c(0,15), type = 'l', 
       lwd = 5, main = "Beta Distribution:a = 0.1, b = 0.2, m = 0, l = 0")

  plot(x, y2, col = "green", xlim = c(0,1), ylim = c(0,15), type = 'l', 
       lwd = 5, main = "Beta Distribution:a = 0.1, b = 0.2, m = 1, l = 1")

  plot(x, y3, col = "blue", xlim = c(0,1), ylim = c(0,15), type = 'l', 
       lwd = 5, main = "Beta Distribution:a = 0.1, b = 0.2, m = 30, l = 40")

  plot(x, y4, col = "orange", xlim = c(0,1), ylim = c(0,15), type = 'l', 
       lwd = 5, main = "Beta Distribution:a = 0.1, b = 0.2, m = 150, l = 100")
}

多项式分布（Multinominal Distribution）与狄利赫雷分布（Dirichlet Distribution）

1. 多变量伯努利分布与多项式分布

　　满足伯努利分布的随机变量只能有2种状态（binary variabal），但实际生活中往往有多种状态的情况存在，下面我们来考虑多种状态下的伯努利分布。为方便考虑应用1-of-K scheme,这种表示方法将随机变量用K维向量表示，假设该变量处于第i种状态，则 $x_i = 1$ ,向量中其他元素为0。举个例子，假设一个离散的随机变量x有5种状态（记作 $x_1,...,x_5$ )，且目前处于第2种状态，则 $x = (0, 1, 0, 0, 0)^T$ 。则x的分布可以表示为：

p (x | μ) = \prod k = 1 K μ x k k

$p(x|\mu) = \prod^K_{k = 1}\mu_k^{x_k}$ 同样，考虑一个含有N个独立样本且服从多变量伯努利分布的数据集

D：{x1,x2,...xN} $D：\{x_1, x_2,...x_N\}$ ,则我们可以写出似然函数：

p (D | μ) = \prod n = 1 N \prod k = 1 K μ x n k k = \prod k = 1 K μ (\sum n x n k) k = \prod k = 1 K μ m k k

$p(D|\mu) = \prod^N_{n = 1}\prod^K_{k = 1}\mu_k^{x_{nk}} =\prod^K_{k = 1}\mu_k^{(\sum_n x_{nk})} = \prod^K_{k = 1}\mu_k^{m_k}$ 其中

mk=∑nxnk $m_k = \sum_n x_{nk}$
同样利用最大似然估计来估计参数的值，可以得到：

μ k = m k N

$\mu_k = \frac{m_k}{N}$ 与二项分布一样，若进行N次独立观察实验，可得到多项式分布：

M u l t (m 1, m 2, . . ., m K | μ, N) = N ! m 1 ! m 2 ! . . . m K ! \prod k = 1 K μ m k k

$Mult(m_1, m_2, ..., m_K|\mu, N) = \frac{N!}{m_1!m_2!...m_K!}\prod^K_{k = 1}\mu_k^{m_k}$ 显然

∑Kk=1mk=N $\sum^K_{k = 1}m_k = N$

2. 狄利赫雷分布

　　和上文描述的一致，若要计算后验分布，就必须假设先验分布，同样利用共轭先验的特性，我们找到了可以作为先验分布的狄利赫雷分布，它与多变量伯努利分布的似然函数有相同的形式，其具体的函数表达如下：

D i r (μ | α) = Γ ( α 0 ) Γ ( α 1 ) Γ ( α 2 ) . . . Γ ( α k ) \prod k = 1 K μ α k - 1 k

$Dir(\mu|\alpha) = \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\Gamma(\alpha_2)...\Gamma(\alpha_k)}\prod^K_{k = 1}\mu_k^{\alpha_k - 1}$ 其中

α0=∑kk=1αk $\alpha_0 = \sum^k_{k = 1}\alpha_k$
同样利用Bayesian定理，可得到后验分布：

p (μ | D, α) = D i r (μ | α + m) = Γ ( α 0 + N ) Γ ( α 1 + m 1 ) Γ ( α 2 + m 2 ) . . . Γ ( α k + m k ) \prod k = 1 K μ α k + m k - 1 k

$p(\mu|D, \alpha) = Dir(\mu|\alpha + m)=\frac{\Gamma(\alpha_0 + N)}{\Gamma(\alpha_1 + m_1)\Gamma(\alpha_2 + m_2)...\Gamma(\alpha_k + m_k)}\prod^K_{k = 1}\mu_k^{\alpha_k + m_k - 1}$ 其中向量

m=(m1,m2,...mk)T $m = (m_1, m_2, ...m_k)^T$ ,

mi $m_i$ 表示N个样本中状态为 i 的样本的个数。
实际上来说，Beta分布与狄利赫雷分布形式上有很大的相似性，只是随机变量的状态数不同。而当把狄利赫雷分布的状态数当做2，也就变为了Beta分布。

bjy_fighting

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PRML学习总结之2------概率分布之一

PRML学习总结之2——概率分布之一本章主要介绍一些重要的概率分布，包括伯努利分布与二项分布，多项式分布，Beta分布，Dirichlet分布以及Gaussian分布。其中详细介绍了Gaussian分布。同时介绍了指数家族（The Exponential Family）的一些性质。最后介绍了两种无参数的方法：核密度估计以及KNN。基本的知识1.先验分布（prior distribution）
复制链接

扫一扫