贝叶斯推理：概率分布

最新推荐文章于 2022-10-29 11:02:13 发布

lawme

最新推荐文章于 2022-10-29 11:02:13 发布

阅读量2.1k

点赞数

分类专栏：贝叶斯推理

贝叶斯推理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文探讨了贝叶斯推理中的概率分布，包括离散型变量和连续型变量的概率分布。离散型变量的概率质量函数如泊松分布，而连续型变量的概率密度函数与具体概率值不同。文章还提出λλ的挑战，即如何根据观测数据估计其值，贝叶斯学派主张为λλ设定分布概率进行讨论。

摘要由CSDN通过智能技术生成

贝叶斯推理：概率分布

设定 $Z$ 是随机变量，与 $Z$ 相关联的是概率分布函数。 $Z$ 可以输出不同值，该函数则对各值赋于相应的概率。

随机变量 $Z$ 有三种类型：

离散型。例如货币、电影评级、选票数目等。
连续型。例如温度、速度、时间等。
混合型。是上述两种变量的联合。

离散型变量的概率分布

离散变量 $Z$ 的分布叫做概率质量函数，以 $P(Z = k)$ 表示。可见， $Z$ 由多个值 $k$ 构成，并由该函数全面描述。知道了该函数就知道了 $Z$ 的行为。常用的概率质量函数有多个，其中一个非常有用的是泊松分布（ Poisson-distributed ）：

P (Z = k) = \frac{λ^{k} e^{- λ}}{k!}, k = 0, 1, 2, . . .

$P( Z = k ) = \frac{\lambda^k e^{-\lambda} } { k!} ,k = 0,1,2,...$

λ λ $\lambda$ 叫做概率分布的参数，并控制着分布的形状。对于泊松分布，

λ λ $\lambda$ 可为任意正数。增大

λ λ $\lambda$ 值，我们可以加大较大数值对应的概率；减小

λ λ $\lambda$ 值, 我们可以加大较小数值对应的概率。

λ λ $\lambda$ 可视作泊松分布的密度。

与 $\lambda$ 不同， $k$ 必须是正整数。这一点十分重要。因为，如果你建立人口模型，不会允许数据出现 4.25 或者 5.612 个人。

如果随机变量 $Z$ 有泊松质量分布，则记作：

Z \sim P o i (λ)

$Z ∼ Poi(λ)$ 泊松分布的一个有用的特点，是它的预期值等于它的参数值：

E [Z | λ] = λ

$E[Z|λ] = λ$ 这个特点经常用到，应该记住它。
在图－1中，画出了不同

λ λ $\lambda$ 值的概率质量分布。首先，

λ λ $\lambda$ 值的增大，会使较大数值对应的概率增大；其次，虽然 x 轴终止于15，但概率分布并未终止。每个正整数都有相应的正值的概率。

%matplotlib inline
from IPython.core.pylabtools import figsize
import numpy as np
from matplotlib import pyplot as plt
import scipy.stats as stats

figsize(12.5, 4)

a = np.arange(16)

poi = stats.poisson              # 泊松离散随机变量
lambda_ = [1.5, 4.25]            #λ参数

colors = ["#348ABD", "#A60628"]
plt.bar(a, poi.pmf(a, lambda_[0]), color=colors[0],
    label="$\lambda = %.1f$" % lambda_[0], alpha=0.60,
    edgecolor=colors[0], lw="3")
    # poi.pmf: 数组 a 中各值的概率质量函数
plt.bar(a, poi.pmf(a, lambda_[1]), color=colors[1],
    label="$\lambda = %.1f$" % lambda_[1], alpha=0.60,
    edgecolor=colors[1], lw="3")
plt.xticks(a + 0.4, a) # 设置 x 轴刻度
plt.legend()
plt.ylabel("Probability of $k$")
plt.xlabel("$k$")
plt.title("Probability mass function of a Poisson random variable,\
    differing $\lambda$ values");

图－1

连续型变量的概率分布

与概率质量函数不同，连续随机变量有个概率密度函数。这两个函数极其不同。概率密度函数是指数型的，这般模样：

f Z (z | λ) = λ e - λ z, z \geq 0

$fZ(z|λ) = λe^{−λz}, z ≥ 0$
与泊松随机变量相同，指数型的随机变量也是只取正值。不同的是，它可以取分数，如 4.25 或 5.612401。这个特点使它不适合选择整数数据，而非常适合选择时间、温度（当然是绝对温度）或其他精确、正值的变量。图－2，表示2个不同

λ λ $\lambda$ 值的概率密度函数。
指数型的随机变量

Z Z $Z$ 带有参数

λ

$λ$ ，呈现指数型分布，记为：

Z \sim E x p (λ)

$Z ∼ Exp(λ)$ 指数型随机变量的预期值，等于

λ λ $\lambda$ 的倒数：

E [Z | λ] = 1 λ

$E[Z|λ] =\frac{1}\lambda$

%matplotlib inline
from IPython.core.pylabtools import figsize
import numpy as np
from matplotlib import pyplot as plt
import scipy.stats as stats

a = np.linspace(0, 4, 100)
expo = stats.expon
lambda_ = [0.5, 1]
for l, c in zip(lambda_, colors):
    plt.plot(a, expo.pdf(a, scale=1./l), lw=3,
        color=c, label="$\lambda = %.1f$" % l)
    plt.fill_between(a, expo.pdf(a, scale=1./l), color=c, alpha=.33)
plt.legend()
plt.ylabel("Probability density function at $z$")
plt.xlabel("$z$")
plt.ylim(0,1.2)
plt.title("Probability density function of an exponential random\
    variable, differing $\lambda$ values");

这里写图片描述图－2

重要的是要知道，概率密度函数在某点的值，与该点的概率值并不相等。

$\lambda$ 到底是什么？

在现实世界中，我们只能看到 $Z$ ，但看不到 $\lambda$ 。只能试图根据 $Z$ 确定 $\lambda$ ，但这很困难，因为二者没有逐一对应的值。人们创造了许多不同方法，以求解决评估 $\lambda$ 的问题。可是，由于从未有人真正观察到 $\lambda$ ，没人敢肯定哪个方法是最好的。
贝叶斯学派认为不要企图准确猜测 $\lambda$ ，而是仅限于为 $\lambda$ 设定分布概率，从而讨论它可能是什么。
看上去这很怪异。毕竟 $\lambda$ 的值是固定的，而不是、也不必是随机的。我们只能说，相信 $\lambda$ 的存在。