机器学习-概率分布(PRML 第二章总结)

最新推荐文章于 2021-05-02 23:17:29 发布

玩世彳不恭

最新推荐文章于 2021-05-02 23:17:29 发布

阅读量1.4k

点赞数 2

分类专栏：机器学习文章标签：机器学习 PRML 概率分布

本文链接：https://blog.csdn.net/u010787640/article/details/55212396

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

概率分布

概率分布

1.离散变量

1.1伯努利分布

伯努利分布，进行一次伯努利实验，如投掷一次硬币， $x=1$ 代表正面，其概率为 $\mu$ ， $x=0$ 代表反面，其概率为 $1-\mu$ 。

p (x | μ) = u x (1 - u) 1 - x

$p(x|\mu)=u^x(1-u)^{1-x}$
期望为

E [x] = μ

$E[x]=\mu$
方差为

V a r [x] = μ (1 - μ)

$Var[x]=\mu(1 - \mu)$
当观察到结果序列为

D={x1,x2,x3,...,xn} $D=\{ x_1, x_2, x_3,...,x_n\}$

p (D | μ) = \prod i = 1 n p (x = x i | u) = \prod i = 1 n μ x i (1 - μ) 1 - x i

$p(D|\mu)=\prod^n_{i=1}p(x=x_i|u)=\prod^n_{i=1}\mu^{x_i}(1-\mu)^{1-x_i}$

伯努利实验：伯努利试验是在同样的条件下重复地、相互独立地进行的一种随机试验。其特点是该随机试验只有两种可能结果：发生或者不发生。然后我们假设该项试验独立重复地进行了 $n$ 次，那么我们就称这一系列重复独立的随机试验为 $n$ 重伯努利试验。

1.2二项分布

二项分布，进行 $K$ 次重复的相互独立的伯努利实验，如相互独立地掷 $N$ 次硬币，设 $x$ 为正面出现的总数，则 $x$ 为随机变量，设正面概率为 $\mu$ ，反面概率为 $1-\mu$ 。

p (x | K, μ) = (K x) μ x (1 - μ) K - x 其 中 (K x) = K ! x ! ( K - x ) !

$p(x|K,\mu)=\dbinom{K}{x}\mu^x(1-\mu)^{K-x} \\其中\dbinom{K}{x}=\frac{K!}{x!(K-x)!}$
期望为

E [x] = K μ

$E[x] = K\mu$
方差为

V a r [x] = K μ (1 - μ)

$Var[x]=K\mu(1-\mu)$

$n$ 重伯努利实验和二项分布不同的点为，二项分布研究的是总和，而计算某个具体实验结果时需要用到伯努利分布结合乘法原理。

1.3多项式分布

多项式分布，也就是将二项分布推广到多种结果，也进行K次实验，如投掷骰子。结果是1有 $\alpha_1$ 次，结果为2有 $\alpha_2$ 次，… ，的概率分布情况。
当进行一次实验有 $m$ 个结果时，使用向量表示概率和结果。

μ = {μ 1, μ 2, . . ., μ m} T

$\mu=\{\mu_1, \mu_2,...,\mu_m\}^T$ 其中

μi $\mu_i$ 为第

i $i$ 个结果发生的概率。

x = {x 1, x 2, . . ., x m} T

$x=\{x_1, x_2,...,x_m\}^T$ 其中当第

i $i$ 个结果发生则

xi=1 $x_i=1$ 否则

xi=0 $x_i=0$ ，这种编码方式称作one-hot编码。

例如投掷一个六面均匀的骰子概率为 $\mu=\{\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{6}\}^T$ ，当结果为4时表示为 $x=\{0,0,0,1,0,0\}^T$ 。

p (k 1, k 2, . . ., k m | K, μ) = (K k 1 , k 2 , . . . , k m) \prod i = 1 m u k i i 其 中 \sum i = 1 m k i = K

$p(k_1,k_2,...,k_m|K,\mu)=\dbinom{K}{k_1,k_2,...,k_m}\prod^m_{i=1}u_i^{k_i} \\其中\sum^m_{i=1}k_i=K$

2.连续变量

2.1 beta分布

beta分布，二项分布的共轭先验分布。

共轭先验：后验概率分布的函数形式和先验概率分布的函数形式相同。后验分布函数与似然函数和先验分布函数的乘积成正比。

beta分布的形式为

p (μ | α, β) = Γ ( α + β ) Γ ( α ) Γ ( β ) μ α - 1 (1 - μ) β - 1

$p(\mu|\alpha, \beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\mu^{\alpha-1}(1-\mu)^{\beta-1}$ 期望为

E [μ | α, β] = α α + β

$E[\mu|\alpha, \beta]=\frac{\alpha}{\alpha+\beta}$ 方差为

V a r [μ | α, β] = α β ( α + β ) 2 ( α + β + 1 )

$Var[\mu|\alpha, \beta]=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$

2.2 狄利克雷分布

狄利克雷分布，多项式分布的共轭先验分布。
狄利克雷分布的形式为

p (μ 1, μ 2, . . ., μ m | α 1, α 2, . . ., α m) = Γ ( α ) Γ ( α 1 ) + Γ ( α 2 ) + . . . + Γ ( α m ) \prod i = 1 m μ α i - 1 i 其 中 \sum i = 1 m α i = α, \sum i = 1 m μ i = 1 Γ (x) 为 伽 马 函 数 ， Γ (x) = (x - 1)!

$p(\mu_1, \mu_2,...,\mu_m|\alpha_1,\alpha_2,...,\alpha_m)=\frac{\Gamma(\alpha)}{\Gamma(\alpha_1) + \Gamma(\alpha_2)+...+\Gamma(\alpha_m)}\prod^m_{i=1}\mu_i^{\alpha_i-1} \\其中\sum^m_{i=1}\alpha_i=\alpha,\sum^m_{i=1}\mu_i=1 \\\Gamma(x)为伽马函数，\Gamma(x)=(x-1)!$

2.3 高斯分布

3 极大似然估计

极大似然估计是在给定模型（含有未知参数）和样本集的情况下用来估计模型参数，其思想就是找到最佳的参数，使得样本发生的几率最大。

极大似然估计的过程为：
1. 写出似然函数
2. 似然函数取对数
3. 似然函数求导数
4. 求解得出参数

假设进行 $K$ 次相互独立的实验，每一次实验结果有 $m$ 种，我们观测到的样本结果为 $D=\{x_1, x_2,...,x_K\}$ ,其中 $x_i=\{0,0,1,0...,0\}^T$ 为 $m$ 维列向量,用极大似然法估计概率向量 $\mu=\{\mu_1,\mu_2,...,\mu_m\}^T$ ，其中 $\sum^m_{i=1}\mu_i=1$ 。

似然函数为：

p (D | μ) = \prod i = 1 K \prod j = 1 m μ x i j j 设 m j = \sum i = 1 k x i j p (D | μ) = \prod i = 1 m μ m i i

$p(D|\mu)=\prod^K_{i=1}\prod^m_{j=1}\mu_j^{x_ij}\\设m_j=\sum^k_{i=1}xij\\p(D|\mu)=\prod^m_{i=1}\mu_i^{m_i}$ 取对数为：

ln p (D | μ) = \sum i = 1 m m i ln u i

$\ln {p(D|\mu)}=\sum_{i=1}^mm_i\ln u_i$ 由于有限制条件

∑mi=1μi=1 $\sum_{i=1}^m\mu_i=1$ ，根据拉格朗日乘数法得到

L (μ, λ) = \sum i = 1 m m i ln u i + λ (\sum i = 1 m μ i - 1) \nabla u i L (μ, λ) = m i μ i + λ \nabla λ L (μ, λ) = \sum i = 1 m μ i - 1

$L(\mu, \lambda)=\sum_{i=1}^mm_i\ln u_i+\lambda(\sum_{i=1}^m\mu_i-1)\\\nabla_{u_i}L(\mu, \lambda)=\frac{m_i}{\mu_i}+\lambda\\\nabla_{\lambda}L(\mu, \lambda)=\sum_{i=1}^m\mu_i-1$ 根据导数为0得到

μ i = - m i λ

$\mu_i=-\frac{m_i}{\lambda}$ 代入

∑mi=1μi=1 $\sum_{i=1}^m\mu_i=1$ 得到

λ = - K μ i = m i K

$\lambda=-K\\\mu_i=\frac{m_i}{K}$ 可以看出某一事件发生的概率就等于其发生的次数除以实验总数。

当我们进行三次投掷骰子实验，得到的全是6，那么根据极大似然估计我们可以得到6的概率为1，其余的概率为0，这显然和我们的常识所相悖，这样就引出了最大后验估计

4 最大后验估计

最大后验估计和极大似然估计不一样的点在于，当模型中的参数服从某一分布，也就是具有了一定的先验知识，对似然结果进行修正后的结果，同样也是求出参数的一个具体的值

似然函数， $p(x|\mu)$ ，用参数的函数表示结果的概率，就是似然函数。
先验概率， $p(\mu)$ ，已知模型参数服从某一分布，则具有先验概率，也代表先验知识。
后验概率， $p(\mu|x)$ ，表示已经知道结果的情况下，推算模型参数出现的概率

后验概率 $\propto$ 似然函数 $*$ 先验概率

根据贝叶斯公式

p (u | x) = p ( x | μ ) p ( μ ) p ( x )

$p(u|x)=\frac{p(x|\mu)p(\mu)}{p(x)}$ 我们要得到使得后验概率最大的参数

μ $\mu$

μ ̂ = arg max μ p (μ | x) = arg max μ p ( x | μ ) p ( μ ) p ( x )

$\hat\mu=\arg\max_\mu{p(\mu|x)}=\arg\max_\mu{\frac{p(x|\mu)p(\mu)}{p(x)}}$ 由于

μ $\mu$ 和

p(x) $p(x)$ 没有任何关系，所以

μ ̂ = arg max μ p (μ | x) = arg max μ p (x | μ) p (μ)

$\hat\mu=\arg\max_\mu{p(\mu|x)}=\arg\max_\mu{{p(x|\mu)p(\mu)}}$ 例如观测到的样本服从于二项分布，并且二项分布的共轭先验是Beta分布得到

μ ̂ = = = arg max μ (K x) μ x (1 - μ) (K - x) Γ ( α + β ) Γ ( α ) Γ ( β ) μ α - 1 (1 - μ) β - 1 arg max μ (K x) Γ ( α + β ) Γ ( α ) Γ ( β ) μ x + α - 1 (1 - μ) K + β - x - 1 arg max μ g (x, α, β) μ x + α - 1 (1 - μ) K + β - x - 1

$\begin{eqnarray} \hat\mu&=&\arg\max_\mu{\dbinom{K}{x}\mu^x(1-\mu)^{(K-x)}}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\mu^{\alpha-1}(1-\mu)^{\beta-1}\\ &=&\arg\max_\mu{\dbinom{K}{x}}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\mu^{x+\alpha-1}(1-\mu)^{K+\beta-x-1}\\ &=&\arg\max_\mu g(x, \alpha, \beta)\mu^{x+\alpha-1}(1-\mu)^{K+\beta-x-1} \end{eqnarray}$ 对其取对数求导数得到

μ = α + x - 1 α + β + K - 2

$\mu=\frac{\alpha+x-1}{\alpha+\beta+K-2}$ 其中

α $\alpha$ 表示的是之前

x=1 $x=1$ 的总数，

β $\beta$ 表示的是

x=0 $x=0$ 的总数，这里

μ $\mu$ 就表示的是加上之前的先验知识，也就是在之前还做过

α+β $\alpha+\beta$ 次实验，再加上这次做的K次实验最终的到的结果。 可以看出最大后验将先验知识结合到里面，对似然函数进行了修正。

5 贝叶斯估计

贝叶斯估计其实并不是估计一个原有的值，而是估计一个新样本发生的概率，根据贝叶斯公式

p (u | x) = p ( x | μ ) p ( μ ) p ( x )

$p(u|x)=\frac{p(x|\mu)p(\mu)}{p(x)}$ 其中

p(x) $p(x)$ 被称为证据项

p (x) = \int p (x | μ) p (μ) d μ

$p(x)=\int p(x|\mu)p(\mu)d\mu$ 新样本发生的概率

p (x ̂ | D) = \int p (x | μ) p (μ | D) d μ

$p(\hat x|D)=\int p(x|\mu)p(\mu|D)d\mu$
还是用二项分布和Beta分布举例，后验概率正比于似然函数和先验概率的乘积

p (μ | x, α, β) \propto \propto (K x) μ x (1 - μ) (K - x) Γ ( α + β ) Γ ( α ) Γ ( β ) μ α - 1 (1 - μ) β - 1 μ x + α - 1 (1 - μ) K + β - x - 1

$\begin{eqnarray} p(\mu|x, \alpha,\beta)&\propto&{\dbinom{K}{x}\mu^x(1-\mu)^{(K-x)}}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\mu^{\alpha-1}(1-\mu)^{\beta-1}\\ &\propto&\mu^{x+\alpha-1}(1-\mu)^{K+\beta-x-1} \end{eqnarray}$
所以根据共轭先验，得到后验分布是