PRML_频率与贝叶斯（一）

最新推荐文章于 2022-01-31 11:33:32 发布

LiuWenChaocsdn

最新推荐文章于 2022-01-31 11:33:32 发布

阅读量228

点赞数

分类专栏：统计学机器学习文章标签：贝叶斯先验分布后验分布似然函数 PRML

本文链接：https://blog.csdn.net/c_air_c/article/details/101199834

版权

机器学习同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

统计学

3 篇文章 0 订阅

订阅专栏

我们从数据中能得到以下信息：

总体信息。总体所属分布或者所属的分布族带来的信息；

样本信息。从总体中抽样得来的样本给我们提供的信息；

以上两种信息进行的统计推断称为经典统计学。它的观点是把样本看成来自具有一定概率分布的总体。

先验信息。在抽样之前，对总体的基本认知，一般来自经验或历史资料。

利用以上三种信息进行的统计推断称为贝叶斯统计。它的观点是：任一未知量 $\theta$ 都可看做一个随机变量，应用一个概率分布去描述对 $\theta$ 的未知状况。这个概率分布是在抽样前就有的关于 $\theta$ 的先验信息的概率陈述。这个分布被称之为先验（Prior）分布。

关于未知量 $\theta$ 的一些讨论：

依赖于参数 $\theta$ 的密度函数在经典统计中记为 $p(x;\theta)$ 或 $p_{\theta}(x)$ ，它表示在参数空间 $\Theta=\{\theta\}$ 中不同的 $\theta$ 对应不同的分布。可以在贝叶斯统计中记为 $p(x|\theta)$ ，他表示在随机变量 $\theta$ 给定某个值时，总体指标 $X$ 的条件分布。
根据参数 $\theta$ 的先验信息确定先验分布 $\pi(\theta)$ 。
从贝叶斯的观点看，样本 $x=(x_1 ,···X_n,···)$ 的产生分两步进行。首先设想从先验分布 $\pi(\theta)$ 产生一个样本 $\theta$ ，这一步是“老天爷”做的，人们是看不到的，故用“设想”二字。第二步是从总体分布 $p(x|\theta)$ 产生一个样本 $x=(x_1,···x_n,···)$ ，这个样本是具体的，人们能看得到的，此样本 $x$ 发生的概率是与如下联合密函数成正比。 $p(x|\theta^i)=\prod_{i=1}^n{p(x_i|\theta^i)}$ 这个联合密度函数是综合了总体信息和样本信息，常称为似然函数，记为 $L(\theta^i)$ 。频率学派和贝叶斯学派都承认似然函数，二派认位：在有了样本观察值 $x=(x_1,···x_n,···)$ 后，总体和样本所含 $\theta$ 的信息都被包含在似然函数 $L(\theta^i)$ 之中，可在使用似然函数做统计推断时，两派还是有差异的。
由于 $\theta$ 是设想出来的，他仍然是未知的，他是按先验分布 $\pi(\theta)$ 而产生的，要把先验信息进行综合，不能只考虑 $\theta$ ，而应对 $\theta$ 的一切可能加以考虑。故要用 $\pi(\theta)$ 参与进一步综合。这样一来，样本 $x$ 和参数 $\theta$ 的联合分布 $h(x,\theta)=p(x|\theta)\pi(\theta)$ 把三种可用的信息都综合进去了。
我们的任务是要对未知数 $\theta$ 做出统计推断。在没有样本信息时，人们只能根据先验分布对 $\theta$ 做出判断。在有样本观察值 $x=(x_1,···x_n,···)$ 后，我们应该依据 $h(x,\theta)$ 对 $\theta$ 作出推断。为此我们需要把 $h(x,\theta)$ 作如下分解： $h(x,\theta)=\pi(\theta|x)m(x)$ 其中 $m (x)$ 是 $x$ 的边缘密度函数。 $m(x)=\int_\theta{h(x,|\theta)d\theta}=\int_\theta{p(x|\theta)\pi(\theta)}$ 他与 $\theta$ 无关，或者说是， $m (x)$ 中不含 $\theta$ 的任何信息。因此能用来对 $\theta$ 做出推断的仅是条件分布 $\pi(\theta|x)$ 。他的计算公式为 $\pi(\theta|x)=\frac{h(x|\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_\theta{p(x|\theta)\pi(\theta)}d\theta}$ ，这就是贝叶斯公式的密度函数形式。这个在样本 $x$ 给定下， $\theta$ 的条件分布被称为 $\theta$ 的后验分布。他是集中了总体、样本和先验三种信息中包含有 $\theta$ 的一切信息，而又是排除一切与 $\theta$ 无关的信息之后所得到的结果。故基于后验分布 $\pi(\theta|x)$ 对 $\theta$ 进行统计推断是更为有效，也是合理的。
在 $\theta$ 是离散随机变量时，先验分布可用先验分布列 $\\pi(\theta_i),i=1,2···$ ，表示。这时后验分布也是离散形式。 $\pi(\theta_i|x)=\frac{p(x|\theta_i)\pi(\theta_i)}{\sum_i{p(x|\theta_i)\pi(\theta_i)}},i=1,2,···$ 假如总体 $X$ 也是离散的，那么只要把密度安徽省农户 $p(x|\theta)$ 看作是概率函数 $P(X=x|\theta)$ 即可。

一般来说，先验分布 $\pi(\theta)$ 是反映人们在抽样分布前对 $\theta$ 的认识，后验分布 $\pi(\theta|x)$ 是反映人们在抽样后 $\theta$ 的认识。之间的差异是由于样本 $x$ 出现后人们对 $\theta$ 认识的一种调整。所以后验分布 $\pi(\theta|x)$ 可以看作是人们用总体信息和样本信息对先验分布 $\pi(\theta)$ 做调整的结果。

LiuWenChaocsdn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PRML_频率与贝叶斯（一）

PRMLPRMLPRML_频率与贝叶斯一、我们从数据中能得到的信息总体信息。总体所属分布或者所属的分布族带来的信息；样本信息。从总体中抽样得来的样本给我们提供的信息；以上两种信息进行的统计推断称为经典统计学。它的观点是把样本看成来自具有一定概率分布的总体。先验信息。在抽样之前，对总体的基本认知，一般来自经验或历史资料。利用以上三种信息进行的统计推断称为贝叶斯统计。它的观点...
复制链接

扫一扫