统计学习分析重学笔记(一）：由想理解evidence引出的

亦复何言？？

已于 2024-03-21 23:58:58 修改

阅读量1.8k

点赞数 23

文章标签：机器学习人工智能

于 2024-01-20 23:11:36 首次发布

本文链接：https://blog.csdn.net/qq_42770218/article/details/135721370

版权

频率学派

概率分布 $P(X;\theta )$ 表示随机变量 $X$ 的概率分布， $\theta$ 被看做一个数值对象，其值是固定值，只不过是未知的，在 $\theta$ 取某个值的条件下，变量 $X$ 的概率分布，也就是把 $P(X;\theta )$ 看做是 条件概率分布 $P(X|\theta )$ 。

贝叶斯学派

参数值并不是固定值，而是不确定的，因为我们并没有观察到。对于没有观察到的事件（得到证据证明其值是什么），其每种值都是有可能的。在 $P(X;\theta )$ 中，参数 $\theta$ 应该也是一个值随机的变量，因此 $P(X;\theta )$ 应该是联合概率分布 $P(X,\theta )$ ，而不是条件概率分布。

贝叶斯定理

$P(X,\theta )=P(\theta )P(X|\theta )=P(X)P(\theta|X)$

$P(\theta|X)=\frac{P(\theta )P(X|\theta )}{P(X)}$

很多场景下，我们可以看到”果”，也就是我们有变量 $X$ 的观测值，但我们不知道导致这个”果”的”因”是什么，也就是不知道变量 $\theta$ 是什么。这时我们就可以利用贝叶斯定理推断出”因”，而这就是通常所说的贝叶斯推断(Bayesian inference)，很多资料中会把”结果”(观测值)称之为证据(evidence)，把”果”变量称为证据变量。

贝叶斯推断

变量 $\theta$ 是”因”变量，变量 $X$ 是”果”变量，而其观测值 $\textup{\textsl{D}}$ 就是看到的”结果”，我们把变量 $X$ 的观测样本 $\textup{\textsl{D}}$ 和变量 $\theta$ 写成贝叶斯定理的形式：

$P(\theta|D)$ 通常被称为 后验概率分布(posterior probability distribution) ，这里”后验”就表示有了证据之后，这里的证据就是指”观测结果”，也就是观测样本集。

${P}'(\theta)$ 表示的是在没有任何证据(观测样本集)时，经验上对 $\theta$ 的认知，称为 先验概率分布(prior probability distribution) 。 ${P}'(\theta)$ , ${P}(\theta)$ 虽然都表示参数变量的边缘概率，但它们是在贝叶斯估计中不同阶段的表示，所以这里我们加了一个上标 ' 进行区分。

$P(D|\theta)$ 就是在有 $\theta$ 的条件下生成观测样本的的概率，我们知道观测样本集是符合独立同分布(i.i.d)的，所以展开后具有如下形式，我们发现这其实就是样本的似然，所以 $P(D|\theta)$ 就是样本的似然值。

$P(D)$ 是”果”的观测，直观的讲就是观测样本集的概率，通常被称为证据(evidence)。

$P(D)$ 作为归一化因子，通过对分子中参数变量积分得到，消除了参数的影响，其不再受到参数的影响。换句话说，只要样本集 $\textup{\textsl{D}}$ 确定了，那么 $P(D)$ 的值就确定了，不再变化，在确定了样本集后，其是一个固定值。

综上，贝叶斯推断可以表述成如下方式，其中符号 ∝ 表示正比关系。

我们可以用贝叶斯推断找到参数变量 $\theta$ 的后验概率分布 $P(\theta|D)$ ，然后把 $P(\theta|D)$ 作为参数的”真实”概率分布， $P(\theta|D)$ → ${P}(\theta)$ 。因此有，

<--- $\int_{0}^{1}P(\theta)P(X|\theta)d\theta$

但是要推断出 $P(\theta|D)$ 还存在两个难点：

先验分布 ${P}'(\theta)$ 如何确定。
分母 $P(D)$ 需要计算积分，并且是对 ${P}'(\theta)$ 进行积分， ${P}'(\theta)$ 的形式会影响积分的难度。

理论上参数的先验分布应该根据我们其认知信息确定，但实际上多数情况下我们对参数是一无所知的，没有任何信息，这时，我们就需要一种被称为无信息先验（noninformative prior）的先验分布。 这有时也被称为“让数据自己说话”。除无信息先验外，另外一种确定先验分布的方法为共轭先验(conjugate prior)，共轭先验是一种使用非常广泛的确定先验分布的方法。

共轭先验(conjugate prior)

在贝叶斯推断中，如果后验分布与先验分布属于同一种概率分布，则此先验分布称为共轭先验。注意，由于后验分布是由先验与似然相乘得到的，所以共轭指的是先验与似然共轭，共轭先验与似然相乘后，不改变分布的函数形式，所以得到后验与先验具有相同的形式。

共轭先验使得后验分布和先验分布拥有相同的形式，很多时候可以直接给出后验的结果，而不必计算分母 $P(D)$ ，这极大的降低了后验分布的计算复杂度。高斯分布的似然函数的共轭分布仍然是高斯分布，伯努利分布的似然函数的共轭先验是beta分布，类别分布的似然函数的共轭分布是狄利克雷分布。共轭先验也是有缺点的，其一是只有指数族分布才存在共轭先验。 其二是，选取共轭先验更多是为了计算简单，而不是为了更精确的估计参数。

选取了合适的参数先验分布后，就可以利用贝叶斯推断得到参数的后验概率分布 $P(\theta|D)$ ，后验概率分布就是我们在观测样本集的条件下对参数变量 $\theta$ 概率分布的估计，即，

只是记作 $P(X|D)$ ，不是运算结果

有了 $X$ 的边缘概率分为，就可以预测新样本的概率：

注意：有了参数 $\theta$ 的后验概率分布 $P(\theta|D)$ ，就相当于得到了参数 $\theta$ 的”估计值”，和最大似然估计不同的是， 最大似然估计得到的是点估计(参数一个数值估计)。而贝叶斯估计是把参数看做一个随机变量，得到的是参数的后验概率分布，类似于区间估计。

类别分布

假设随机变量 $X$ 是一个以 $\theta$ 为参数变量的类别分布，其概率分布函数可以写成如下条件概率分布。

其中 $\delta(x,x_{m})$ 是一个指示函数，当 $x=x_{m}$ 时， $\delta(x,x_{m})=1$ ；反之， $\delta(x,x_{m})=0$ 。 $\theta$ 表示参数向量，这里 $\theta$ 不再是一个标量，而是一个向量。参数变量 $\theta$ 的概率分布是 $P(\theta)$ ，随机变量 $X$ 和 $\theta$ 组成联合概率分布 $P(X,\theta)$ 。

先验分布

类别分布的共轭先验是狄利克雷(Dirichlet)分布，所以这里我们选取狄利克雷分布作为参数变量 $\theta$ 的先验分布。

狄利克雷分布的概率函数为：

其中 $\alpha$ 是狄利克雷分布的参数，可以使用经验值，这里看做是已知量。狄利克雷分布是一个 多元连续变量 的分布，一个概率分布同时输出多个子变量 $\theta _{m}(1\leq m\leq M)$ 的概率值，并满足约束 $\sum_{m}^{}\theta _{m}=1$ 。狄利克雷分布每一个子变量 $\theta _{m}$ 的期望值是：

狄利克雷分布是连续值分布，所以满足积分为1的约束。

我们把这个积分式稍微变换一下，稍后会使用到。

后验分布

根据贝叶斯公式，可以写出参数变量 $\theta$ 的后验概率分布：

我们再看分母部分 $P(D)$ ，分母是对分子的归一化，由于这里 $\theta$ 是连续值变量，所以分母是对分子的积分。也可以理解成是对联合概率分布 $P(D,\theta)$ 进行边际化求得边缘概率 $P(D)$ 。

参考一下积分变换，其中的积分部分可以改写一下得到 $P(D)$ 。

我们把这个代入回后验概率分布的分母部分。

我们看到后验概率分布仍然是一个狄利克雷分布，类别分布的参数进行贝叶斯估计时，参数的共轭先验是狄利克雷分布，得到的参数后验概率分布也是狄利克雷分布。

预测新样本

根据观测集 $D$ 得到参数变量 $\theta$ 的后验概率分布 $P(\theta|D)$ ，然后假设 $P(\theta|D)$ 是参数 $\theta$ 的真实概率分布，通过对联合概率分布 $P(X,\theta)$ 边缘化的方式得到类别变量 $X$ 的边缘概率分布 $P(X)$ ，最后利用 $P(X)$ 预测变量 $X$ 的值。在推导 $P(X)$ 的过程中需要利用几个性质：

Gamma函数的性质：

$n_{m}$ 表示类别在观测样本集 $D$ 中出现的次数， $N=\sum_{m}^{}n_{m}$

只有当 $x=x_{m}$ 时，指示函数 $\delta (x,x_{m})$ 等于1，否则等于0，因此下面连乘可以分解化简。

继续化简：

最终我们得到了变量 $X$ 的边缘概率分布，可以看到最后的公式中没有参数 $\theta$ ，因为已经通过积分消除掉了参数变量 $\theta$ 。

这种通过积分边缘化(求 $P(X)$ )的方法，推导过程是复杂的。我们可以使用变量参数 $\theta$ 的后验分布的期望值作为参数的估计值，然后把估计值代入到观测变量 $X$ 的条件概率分布 $P(X|\theta)$ 中。参数 $\theta$ 的后验概率分布 $P(\theta|D)$ 是一个狄利克雷分布，参考和，可以直接写出参数 $\theta$ 后验分布期望值。

贝叶斯估计计算后验概率分布的过程是困难的，需要在整个参数空间求和或者求积分，这在通常情况下是非常困难的(采用共轭先验会简化)，然后在做预测或者模型比较时又要再次积分(求期望需要积分)。此外，当数据集规模较小时，贝叶斯估计的结果接近先验分布，当数据集足够大时，贝叶斯估计的结果就会逐渐偏离先验，等价于极大似然估计的结果。当数据集规模趋近于无穷时，贝叶斯估计的结果和极大似然的结果是一致的。 在实际应用中，贝叶斯估计先验的选择通常是为了计算方便(共轭先验)而不是为了反映出任何真实的先验知识， 然而当先验选择不好的时候，贝叶斯方法有很大可能得到错误的结果。 这一点经常被频率派用来批判贝叶斯派。

[1] 4. 贝叶斯估计 — 张振虎的博客张振虎文档

亦复何言？？

关注

23
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
统计学习分析重学笔记(一）：由想理解evidence引出的

概率分布表示随机变量的概率分布，被看做一个数值对象，在取某个值的条件下，变量的概率分布，也就是把看做是。参数值并不是固定值，而是不确定的，因为我们并没有观察到。对于没有观察到的事件（得到证据证明其值是什么），其每种值都是有可能的。在中，参数应该也是一个值随机的变量，因此应该是联合概率分布，而不是条件概率分布。应用最大似然估计来估计。很多场景下，我们可以看到”果”，也就是我们有变量的观测值，但我们不知道导致这个”果”的”因”是什么，也就是不知道变量是什么。
复制链接

扫一扫