贝叶斯理论

最新推荐文章于 2024-07-28 19:30:31 发布

好运来2333

最新推荐文章于 2024-07-28 19:30:31 发布

阅读量4.1k

点赞数 3

分类专栏： MachineLearning

本文链接：https://blog.csdn.net/qq_33254870/article/details/97813370

版权

MachineLearning 专栏收录该内容

12 篇文章 7 订阅

订阅专栏

1. 似然函数

似然（likelihood）与概率（probability）是完全不同的数学对象，但又有着极其相似的身影。
概率（密度） $\theta)$ ：表示给定 $\theta$ 下样本随机向量 $X = x$ 的可能性；
似然函数 $\theta)$ ：表示给定样本 $X = x$ 下参数 $\theta$ 为不同值时对应样本真实发生的可能性（反映的是给定参数下得到某组观测数据的可信度）。

举个例子：
对于概率，假设抛一枚硬币，正面朝上的概率为0.5（即 $\theta = 0.5$ ），现在有事件A = ‘随机抛一枚硬币正面朝上’，那么 $\theta) = 0.5$ 。
对于似然函数，有一个硬币，它有θ的概率会正面向上，有1-θ的概率反面向上。θ是存在的，但是你不知道它是多少。为了获得θ的值，你做了一个实验：将硬币抛10次，得到了一个正反序列：x=HHTTHTHHHH。
无论θ的值是多少，这个序列的概率值为 θ⋅θ⋅(1-θ)⋅(1-θ)⋅θ⋅(1-θ)⋅θ⋅θ⋅θ⋅θ = θ⁷ (1-θ)³
比如，如果θ值为0，则得到这个序列的概率值为0；如果θ值为1/2，概率值为1/1024。可见，这个序列的概率值会因 $\theta$ 的不同而变化，我们来看一下概率值 $p$ 关于 $\theta$ 的分布：
在这里插入图片描述

这个曲线就是 $\theta$ 的似然函数，通过了解在某一假设下，已知数据发生的可能性，来评价哪一个假设更接近 $\theta$ 的真实值。
注：显然 $\theta$ 的真实值是 0.5，这里大约为 0.7 是因为样本试验的样本太少，仅10次。另外极大似然估计就是求使得概率值最大的 $\theta$ 。

2. 频率学派与贝叶斯学派

关于这两个学派网上有很多大牛的阐述，参见知乎提问，我在这里就不班门弄斧了，只是觉得学习概率论必须要弄清楚这两个学派的区别与联系。
我简单说下我的理解：
（1）频率派认为参数是客观存在，不会改变，虽然未知，但却是固定值；贝叶斯派则认为参数是随机值，由观测到样本或数据决定，因此参数也可以有分布。
（2）贝叶斯学派认为先验分布可以是主观的，它不需要有频率解释。而频率学派则认为，只有在先验分布有一种不依赖主观的意义，且能根据适当的理论或以往的经验决定时，才允许在统计推断中使用先验分布，否则就会丧失客观性。
（3）联系：频率派最常关心的是似然函数，而贝叶斯派最常关心的是后验分布。我们会发现，后验分布其实就是似然函数乘以先验分布再归一化一下使其积分到1。
引用一句经典的话：贝叶斯学派就像是这样一类人，心中隐约期待着一匹马，偶然间看见了一头驴，结果坚信他看到的是一头骡子。

举个例子：
以抛硬币问题为例，假设正面朝上的概率为 $\theta$ ，用 $y$ 表示 $N$ 次抛硬币实验中正面朝上的次数。
频率派直接根据 $\theta = 0.5$ 计算 $p(y|\theta)$ ；而贝叶斯学派认为 $\theta = 0.5$ 是不可信的，首先利用给定数据根据贝叶斯定理去验证参数 $\theta$ ，再用重新计算的 $\theta$ 去做统计推断。

贝叶斯定理
$p(H|D)=\frac{p(D|H)p(H)}{p(D)}$
先验： $p (H)$
似然： $p (D ∣ H)$
后验： $p (H ∣ D)$
证据： $p (D)$
其中，H表示假设，即模型的参数，D表示数据。

3. 贝叶斯分析

以抛硬币为例，假设硬币正面朝上的概率为1，用 $y$ 表示 $N$ 次抛硬币实验中正面朝上的次数，那么根据贝叶斯定理建立通用模型为：
$p(\theta|y) \propto p(y|\theta) p(\theta)$ 那么这里使用的先验 $p(\theta)$ 与似然 $p(y|\theta)$ 分别指什么呢？

3.1 选择似然

使用二项分布作为似然，思考一下为什么选择二项分布？（似然的共轭先验）
$p(y|\theta) = \frac{N!}{y!(N-y)!} \theta^y(1-\theta)^{N-y}$ 假如我们知道了 $\theta$ ，那么就可以从二项分布得出硬币正面朝上的分布。如果我们不知道 $\theta$ ，可以对其赋予一个先验（在贝叶斯统计中，当我们不知道某个参数时，就对其赋予一个先验，然后根据给定的数据更新先验）。

3.2 选择先验

选用贝叶斯统计中最常见的 beta 分布作为先验，思考一下为什么用在模型中使用 beta 分布？
$p(\theta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$

3.3 计算后验

回忆一下贝叶斯定理：
$p(\theta|y) \propto p(y|\theta) p(\theta)$
对于我们的问题，需要将二项分布乘以 beta 分布：
$p(\theta|y)\propto \frac{N!}{y!(N-y)!} \theta^y(1-\theta)^{N-y}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$
去掉与 $\theta$ 不相关的项：
$p(\theta|y) \propto \theta^{\alpha-1 + y}(1-\theta)^{\beta-1+N-y}$
最后后验分布是如下的 Beta 分布：
$p(\theta|y) = Beta(\alpha_{prior}+y, \beta_{prior}+N-y)$
注：后验其实可以看做是在给定数据之后更新了的先验。

、、、、、、、写在后面、、、、、、、、
后续会以贝叶斯分析为主题写几篇利用贝叶斯进行数据分析的文章：

项目源码：https://github.com/dhuQChen/BayesianAnalysis

好运来2333

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯理论

1. 似然似然（likelihood）与概率（probability）是完全不同的数学对象，但又有着极其相似的身影。概率（密度）f(x∣θ)f(x | \theta)f(x∣θ)：表示给定 θ\thetaθ 下样本随机向量 X=xX=xX=x 的可能性；似然f(θ∣x)f(\theta | x)f(θ∣x)：表示给定样本 X=xX=xX=x 下参数 θ\thetaθ 为真实值的可能性。举...
复制链接

扫一扫

专栏目录