贝叶斯推理:概率分布

本文探讨了贝叶斯推理中的概率分布,包括离散型变量和连续型变量的概率分布。离散型变量的概率质量函数如泊松分布,而连续型变量的概率密度函数与具体概率值不同。文章还提出λλ的挑战,即如何根据观测数据估计其值,贝叶斯学派主张为λλ设定分布概率进行讨论。
摘要由CSDN通过智能技术生成

贝叶斯推理:概率分布

设定 Z Z 是随机变量,与 Z 相关联的是概率分布函数。 Z Z 可以输出不同值,该函数则对各值赋于相应的概率。

随机变量 Z 有三种类型:

  • 离散型。例如货币、电影评级、选票数目等。
  • 连续型。例如温度、速度、时间等。
  • 混合型。 是上述两种变量的联合。

离散型变量的概率分布

离散变量 Z Z 的分布叫做概率质量函数,以 P(Z=k) 表示。可见, Z Z 由多个值 k 构成,并由该函数全面描述。知道了该函数就知道了 Z Z 的行为。常用的概率质量函数有多个,其中一个非常有用的是泊松分布( Poisson-distributed ):

P(Z=k)=λkeλk!,k=0,1,2,...
λ λ 叫做概率分布的参数,并控制着分布的形状。对于泊松分布, λ λ 可为任意正数。增大 λ λ 值,我们可以加大较大数值对应的概率;减小 λ λ 值, 我们可以加大较小数值对应的概率。 λ λ 可视作泊松分布的密度。

λ λ 不同, k k 必须是正整数。这一点十分重要。因为,如果你建立人口模型,不会允许数据出现 4.25 或者 5.612 个人。

如果随机变量 Z 有泊松质量分布,则记作:

ZPoi(λ) Z ∼ P o i ( λ )
泊松分布的一个有用的特点,是它的预期值等于它的参数值:
E[Z|λ]=λ E [ Z | λ ] = λ
这个特点经常用到,应该记住它。
在图-1中,画出了不同 λ λ 值的概率质量分布。首先, λ λ 值的增大,会使较大数值对应的概率增大;其次,虽然 x 轴终止于15,但概率分布并未终止。每个正整数都有相应的正值的概率。

%matplotlib inline
from IPython.core.pylabtools import figsize
import numpy as np
from matplotlib import pyplot as plt
import scipy.stats as stats

figsize(12.5, 4)

a = np.arange(16)

poi = stats.poisson              # 泊松离散随机变量
lambda_ = [1.5, 4.25]            #λ参数

colors = ["#348ABD", "#A60628"]
plt.bar(a, poi.pmf(a, lambda_[0]), color=colors[0],
    label="$\lambda = %.1f$" % lambda_[0], alpha=0.60,
    edgecolor=colors[0], lw="3")
    # poi.pmf: 数组 a 中各值的概率质量函数
plt.bar(a, poi.pmf(a, lambda_[1]), color=colors[1],
    label="$\lambda = %.1f$" % lambda_[1], alpha=0.60,
    edgecolor=colors[1], lw="3")
plt.xticks(a + 0.4, a) # 设置 x 轴刻度
plt.legend()
plt.ylabel("Probability of $k$")
plt.xlabel("$k$")
plt.title("Probability mass function of a Poisson random variable,\
    differing $\lambda$ values");

图1图-1

连续型变量的概率分布

与概率质量函数不同,连续随机变量有个概率密度函数。这两个函数极其不同。概率密度函数是指数型的,这般模样:

fZ(z|λ)=λeλz,z0 f Z ( z | λ ) = λ e − λ z , z ≥ 0

与泊松随机变量相同,指数型的随机变量也是只取正值。不同的是,它可以取分数,如 4.25 或 5.612401。这个特点使它不适合选择整数数据,而非常适合选择时间、温度(当然是绝对温度)或其他精确、正值的变量。图-2,表示2个不同 λ λ 值的概率密度函数。
指数型的随机变量 Z Z 带有参数 λ,呈现指数型分布,记为:
ZExp(λ) Z ∼ E x p ( λ )
指数型随机变量的预期值,等于 λ λ 的倒数:
E[Z|λ]=1λ E [ Z | λ ] = 1 λ

%matplotlib inline
from IPython.core.pylabtools import figsize
import numpy as np
from matplotlib import pyplot as plt
import scipy.stats as stats

a = np.linspace(0, 4, 100)
expo = stats.expon
lambda_ = [0.5, 1]
for l, c in zip(lambda_, colors):
    plt.plot(a, expo.pdf(a, scale=1./l), lw=3,
        color=c, label="$\lambda = %.1f$" % l)
    plt.fill_between(a, expo.pdf(a, scale=1./l), color=c, alpha=.33)
plt.legend()
plt.ylabel("Probability density function at $z$")
plt.xlabel("$z$")
plt.ylim(0,1.2)
plt.title("Probability density function of an exponential random\
    variable, differing $\lambda$ values");

这里写图片描述图-2

重要的是要知道,概率密度函数在某点的值,与该点的概率值并不相等。

λ λ 到底是什么?

在现实世界中,我们只能看到 Z Z ,但看不到 λ。只能试图根据 Z Z 确定 λ,但这很困难,因为二者没有逐一对应的值。人们创造了许多不同方法,以求解决评估 λ λ 的问题。可是,由于从未有人真正观察到 λ λ ,没人敢肯定哪个方法是最好的。
贝叶斯学派认为不要企图准确猜测 λ λ ,而是仅限于为 λ λ 设定分布概率,从而讨论它可能是什么。
看上去这很怪异。毕竟 λ λ 的值是固定的,而不是、也不必是随机的。我们只能说,相信 λ λ 的存在。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值