贝塔分布

最新推荐文章于 2024-01-07 02:06:02 发布

Emma_bbb

最新推荐文章于 2024-01-07 02:06:02 发布

阅读量1.2w

点赞数 9

分类专栏：统计文章标签：贝叶斯贝塔分布 Beta 共轭先验分布

本文链接：https://blog.csdn.net/weixin_43174621/article/details/83818818

版权

统计专栏收录该内容

4 篇文章 0 订阅

订阅专栏

$B e t a$ 分布

众所周知，当一个随机变量 $Y$ 的密度函数如下所示时，称这个变量 $Y$ 满足 $B e t a (a, b)$ 分布：
$f(y)=\frac{y^{a-1}(1-y)^{b-1}}{\int_0^1{y^{a-1}(1-y)^{b-1}dy}}=\frac{y^{a-1}(1-y)^{b-1}}{B(a,b)}$
其中： $B(a,b)={\int_0^1{y^{a-1}(1-y)^{b-1}dy}}$ 是 $B e t a$ 函数。

然而，令人困惑不解的是，这个 $B e t a (a, b)$ 分布中的参数 $a, b$ 到底是什么含义？而对于满足这个分布的变量 $Y$ ，它又有着什么实际意义？接下来我所要阐明的就是这个问题，更好的理解所谓 $B e t a (a, b)$ 分布。

1.二项分布

首先，从随机变量 $Y$ 的密度函数 $\frac{y^{a-1}(1-y)^{b-1}}{\int_0^1{y^{a-1}(1-y)^{b-1}dy}}$ 我们可以看出，分母部分是分子部分的从0到1的积分，证明这个 $Y$ 的取值范围是[0,1]，那么我们这时候会不会自然而然地想到，这个 $Y$ 很有可能代表的就是一个概率呢？

从这个角度出发，是不是看着 ${y^{a-1}(1-y)^{b-1}}$ 也觉得有点眼熟呢？没错，对于一个服从于二项分布 $B (n, p)$ 的随机变量 $\xi$ ，它的分布列为 $P(\xi=k)=C_n^kp^k(1-p)^{n-k}$ ，这与服从于 $B e t a$ 分布的 $Y$ 的密度函数 $f (y)$ 中的 ${y^{a-1}(1-y)^{b-1}}$ 有着异曲同工之妙！那么 $B e t a$ 分布与二项分布之间是否存在着什么联系？

2.贝叶斯

上面已经说过，对于一个服从于二项分布 $B (n, p)$ 的随机变量 $\xi$ ，它的分布列为 $P(\xi=k)=C_n^kp^k(1-p)^{n-k}$ 二项分布 $B (n, p)$ 是独立重复 $n$ 次伯努利实验，每次事件发生的概率都为 $p$ ，所以 $\xi$ 实质上是在已经确定参数 $p$ 的条件下，事件发生的次数之和，所以分布列 $P(\xi=k)$ 也可以记为： $P(\xi=k|p)=C_n^kp^k(1-p)^{n-k}$ 可以看出，这是一个条件概率。

熟悉贝叶斯思想与原理的朋友都知道，在贝叶斯公式中，后验概率可以由先验概率和条件概率一同得到： $P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^mP(A|B_j)P(B_j)}$ 在已经知道参数先验分布信息与样本信息的情况下，我们也可以应用贝叶斯公式得到参数的后验分布信息： $\pi(\theta|x)=\frac{L(x|\theta)\pi(\theta)}{\int_\Theta L(x|\theta)\pi(\theta)d\theta}$ 这里， $\theta$ 表示需要估计的未知参数， $x$ 表示样本信息， $\pi(\theta)$ 表示 $\theta$ 的先验密度函数， $L(x|\theta)$ 表示 $x$ 关于 $\theta$ 的条件密度函数， $\Theta$ 表示参数 $\theta$ 的取值空间。

在这里，我们可能会奇怪，为什么 $x$ 关于 $\theta$ 的条件密度函数要用 $L(x|\theta)$ 表示，这是因为在我们使用极大似然法进行参数估计的时候，已知样本信息 $x$ ，需要选择合适的参数 $\theta$ 使发生样本所代表事件的概率最大，所以 $L(x|\theta)$ 在这里是一个似然函数。

假设随机变量 $X$ 服从二项分布 $B(n,\theta)$ ，那么似然函数:
$L(x|\theta)=P(X=x|\theta)=C_n^x\theta^x(1-\theta)^{n-x}$ 如果我们对参数 $\theta$ 一无所知，那么对 $\theta$ 的先验分布 $\pi(\theta)$ 可以做如下均匀分布的假设，假设
$\theta$ ~ $U (0, 1)$ ，这个假设也称为贝叶斯假设： $\pi(\theta)=1~~~(0<\theta<1)$ $= 0 (e l s e)$ 由以上似然函数和参数的先验分布可以得出参数的后验分布： $\pi(\theta|x)=\frac{L(x|\theta)\pi(\theta)}{\int_\Theta L(x|\theta)\pi(\theta)d\theta}$ $~~~~~~~~~~~~~~~~~~~~=\frac{C_n^x\theta^x(1-\theta)^{n-x}}{\int_0^1C_n^x\theta^x(1-\theta)^{n-x}d\theta}$ $~~~~~~~~~~~~~~~=\frac{\theta^x(1-\theta)^{n-x}}{\int_0^1\theta^x(1-\theta)^{n-x}d\theta}$ $~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{\theta^{(x+1)-1}(1-\theta)^{(n-x+1)-1}}{B(x+1,n-x+1)}$
显然有： $\theta|x$ ~ $B e t a (x + 1, n - x + 1)$
$\pi(\theta|x)=\frac{\theta^{(x+1)-1}(1-\theta)^{(n-x+1)-1}}{B(x+1,n-x+1)}$

再回到刚开始的服从于贝塔分布的随机变量 $Y$ 进行比对:

$Y$ ~ $B e t a (a, b)$
$f(y)=\frac{y^{a-1}(1-y)^{b-1}}{\int_0^1{y^{a-1}(1-y)^{b-1}dy}}=\frac{y^{a-1}(1-y)^{b-1}}{B(a,b)}$

我们可以看出，贝塔分布里的参数 $a$ 就相当于参数估计中的 $x + 1$ ；贝塔分布里的参数 $b$ 就相当于 $n - x + 1$ 。

3.参数意义

上面我们假设随机变量 $X$ 服从二项分布 $B(n,\theta)$ ，现在我们给这个二项分布赋予一个实际意义：假设今年武汉一共出生了 $n$ 个婴儿， $\theta$ 为出生婴儿性别为女的概率，那么 $X$ 就是武汉今年所出生女婴的总数，经统计，武汉今年一共出生了 $x$ 个女婴。按照经典的统计思想，可以用频率估计概率，那么女婴出生的概率 $\hat{\theta}=\frac{x}{n}$ 。
但根据贝叶斯的观点， $\theta$ 存在着一个分布，密度函数是 $\pi(\theta|x)=\frac{\theta^{(x+1)-1}(1-\theta)^{(n-x+1)-1}}{B(x+1,n-x+1)}$ ，我们可以看一下这个分布到底是怎样的。
分别取 $n = 100, x = 45$ ( $a = 46, b = 56$ )，以及 $n = 100, x = 65$ ( $a = 66 ， b = 36$ )，画出的密度函数如下图所示：
在这里插入图片描述

p=ggplot(data.frame(x=c(0,1)),aes(x=x))+
stat_function(fun=dbeta,args=list(shape1=46,shape2=56),
                geom="area",fill="blue",alpha=0.3,colour="blue")+
stat_function(fun=dbeta,args=list(shape1=66,shape2=36),
                geom="area",fill="red",alpha=0.3,colour="red")+
annotate("text",x=0.45,y=8.1,label="n=100,x=45")+
annotate("text",x=0.65,y=8.5,label="n=100,x=65")+
labs(x="theta",y="density")
p_remove_bg=p+theme_bw()          
p_remove_bg

正如我们所看到的，横坐标值所代表的是女婴出生率，纵坐标代表的是密度函数，红色和蓝色所代表的随机变量分别服从 $B e t a (46, 56)$ 与 $B e t a (66, 36)$ ，从分布上来看，红色所代表的女婴出生率要高于蓝色所代表的女婴出生率。至此，服从贝塔分布的随机变量的意义，以及贝塔分布中的参数的实际意义得到了一定的解释。

4. $B e t a$ 分布

上面我们假设 $n = 100, x = 45$ 很明显不符合实际，因为武汉每年出生的婴儿量是很大的，如果我们扩大样本量，那么参数 $\theta$ 的后验分布会不会有所变化呢？我们将 $n$ 调整为10000， $x$ 调整为4500， $(a = 4501, b = 5501)$ ：

在这里插入图片描述

很明显可以看出，扩大样本量时，参数估计的众数基本不变（即密度函数最大的点所对应的值），而方差缩小了很多，所以扩大样本量可以使估计更为精确。

5.共轭先验分布

回顾一下，随机变量 $X$ ~ $B(n,\theta)$ ，参数的先验信息为： $\theta$ ~ $U (0, 1)$ ，给出样本信息 $x$ ，那么参数的后验分布为 $\theta|x$ ~ $B e t a (x + 1, n - x + 1)$ 。

当随机变量 $Y$ ~ $B e t a (1, 1)$ 时， $B e t a$ 分布退化为均匀分布， $Y$ ~ $U (0, 1)$ 。

所以参数 $\theta$ 的分布实质上是由先验的 $\theta$ ~ $B e t a (1, 1)$ 变为后验的 $\theta|x$ ~ $B e t a (x + 1, n - x + 1)$ 。 $\pi(\theta)$ 与 $\pi(\theta|x)$ 属于同一分布族。我们称该 $B e t a$ 分布族为 $\theta$ 的共轭先验分布族。

结论：对于服从二项分布 $B(n,\theta)$ 的随机变量 $X$ 而言，样本信息为 $x$ ，假设 $\theta$ 的先验分布满足 $\theta$ ~ $B e t a (a, b)$ ，经过简单的推导可得， $\theta$ 的后验分布满足
$\theta|x$ ~ $B e t a (x + a, n - x + b)$ 。

Emma_bbb

关注

9
点赞
踩
57

收藏

觉得还不错? 一键收藏
2
评论
贝塔分布

BetaBetaBeta分布众所周知，当一个随机变量XXX的密度函数如下所示时，称这个变量XXX满足Beta(a,b)Beta(a,b)Beta(a,b)分布：f(x)=xa−1(1−x)b−1∫01xa−1(1−x)b−1dx=xa−1(1−x)b−1B(a,b)f(x)=\frac{x^{a-1}(1-x)^{b-1}}{\int_0^1{x^{a-1}(1-x)^{b-1}dx}}=\f...
复制链接

扫一扫