贝叶斯统计基础
贝叶斯统计方法是一种强大的统计框架,用于通过现有数据和先验知识更新对未知参数的概率估计。这个方法基于贝叶斯公式,通过计算后验分布来更新对参数的认识。
在贝叶斯统计中,先验分布和后验分布是两个核心概念,它们帮助我们以概率的方式理解和更新关于未知参数的估计。
先验分布(Prior Distribution)
先验分布是在观察数据之前,根据以往经验或主观判断对一个统计参数的概率分布。它反映了我们对这个参数在观测数据之前的估计。例如,如果我们要估计一个硬币正面朝上的概率,但我们没有任何观察数据,可能会假设这个概率是均匀分布在0和1之间的,这就是一个先验分布。
后验分布(Posterior Distribution)
后验分布是在观察到数据之后,结合先验分布和新获得的数据信息,通过贝叶斯公式更新得到的参数的概率分布。它是参数的条件概率分布,条件是给定观察到的数据。后验分布反映了观测数据和先验知识共同作用的结果。
贝叶斯公式
贝叶斯公式是贝叶斯统计的核心,定义如下:
p ( θ ∣ x ) = p ( x ∣ θ ) ⋅ p ( θ ) p ( x ) p(\theta \mid x) = \frac{p(x \mid \theta) \cdot p(\theta)}{p(x)} p(θ∣x)=p(x)p(x∣θ)⋅p(θ)
其中:
- p ( θ ∣ x ) p(\theta \mid x) p(θ∣x) 是后验分布,表示在给定数据 x x x 的情况下,参数 θ \theta θ 的概率分布。
- p ( x ∣ θ ) p(x \mid \theta) p(x∣θ) 是似然函数,表示在参数 θ \theta θ 的前提下观测数据 x x x 出现的概率。
- p ( θ ) p(\theta) p(θ) 是先验分布,表示在观测数据之前对参数 θ \theta θ 的分布估计。
-
p
(
x
)
p(x)
p(x) 是证据因子或边缘似然,它确保后验分布是一个有效的概率分布,通过对所有可能的
θ
\theta
θ 值积分
p
(
x
∣
θ
)
⋅
p
(
θ
)
p(x \mid \theta) \cdot p(\theta)
p(x∣θ)⋅p(θ) 得到。
p ( x ) = ∫ p ( x ∣ θ ) ⋅ p ( θ ) d θ p(x) = \int p(x \mid \theta) \cdot p(\theta) \, d\theta p(x)=∫p(x∣θ)⋅p(θ)dθ
这些公式表示了所有可能的 θ \theta θ值对观测数据 x x x的边缘似然的贡献,确保 p ( θ ∣ x ) p(\theta \mid x) p(θ∣x)是一个有效的概率分布。
示例:医学诊断测试
假设有一个用于诊断疾病的医学测试,其:
- 测试的敏感性(正确识别病人的概率)是90%。
- 测试的特异性(正确识别非病人的概率)是95%。
- 根据以往数据,这种病症在总人口中的发生率(即患病概率)是1%。
我们要计算的是,如果某人的测试结果为阳性,那么这个人实际患病的概率是多少。
符号定义
- θ = 1 \theta = 1 θ=1 表示患病, θ = 0 \theta = 0 θ=0 表示未患病。
- x = + x = + x=+ 表示测试结果为阳性。 x = − x = - x=− 表示测试结果为阴性。
先验分布
先验分布 p ( θ ) p(\theta) p(θ) 反映了在任何测试结果观测之前,我们对疾病患病状态的分布估计:
- p ( θ = 1 ) = 0.01 p(\theta = 1) = 0.01 p(θ=1)=0.01 (患病的先验概率)
- p ( θ = 0 ) = 0.99 p(\theta = 0) = 0.99 p(θ=0)=0.99 (未患病的先验概率)
似然函数
似然函数 p ( x ∣ θ ) p(x \mid \theta) p(x∣θ) 描述了在已知患病状态的情况下,得到各种测试结果的概率:
- p ( x = + ∣ θ = 1 ) = 0.90 p(x = + \mid \theta = 1) = 0.90 p(x=+∣θ=1)=0.90 (患病时测试呈阳性的概率)
- p ( x = + ∣ θ = 0 ) = 0.05 p(x = + \mid \theta = 0) = 0.05 p(x=+∣θ=0)=0.05 (未患病时测试误呈阳性的概率)
后验分布
后验分布 p ( θ ∣ x ) p(\theta \mid x) p(θ∣x) 是我们的目标计算值,即在观测到阳性测试结果后,更新的患病概率:
p ( θ = 1 ∣ x = + ) = p ( x = + ∣ θ = 1 ) ⋅ p ( θ = 1 ) p ( x = + ) p(\theta = 1 \mid x = +) = \frac{p(x = + \mid \theta = 1) \cdot p(\theta = 1)}{p(x = +)} p(θ=1∣x=+)=p(x=+)p(x=+∣θ=1)⋅p(θ=1)
证据因子
证据因子 p ( x = + ) p(x = +) p(x=+) 是归一化常数,确保后验分布是有效的:
p
(
x
=
+
)
=
p
(
x
=
+
∣
θ
=
1
)
⋅
p
(
θ
=
1
)
+
p
(
x
=
+
∣
θ
=
0
)
⋅
p
(
θ
=
0
)
p(x = +) = p(x = + \mid \theta = 1) \cdot p(\theta = 1) + p(x = + \mid \theta = 0) \cdot p(\theta = 0)
p(x=+)=p(x=+∣θ=1)⋅p(θ=1)+p(x=+∣θ=0)⋅p(θ=0)
p
(
x
=
+
)
=
0.90
×
0.01
+
0.05
×
0.99
=
0.009
+
0.0495
=
0.0585
p(x = +) = 0.90 \times 0.01 + 0.05 \times 0.99 = 0.009 + 0.0495 = 0.0585
p(x=+)=0.90×0.01+0.05×0.99=0.009+0.0495=0.0585
将上述值代入后验分布公式,得到:
p ( θ = 1 ∣ x = + ) = 0.009 0.0585 ≈ 0.154 p(\theta = 1 \mid x = +) = \frac{0.009}{0.0585} \approx 0.154 p(θ=1∣x=+)=0.05850.009≈0.154
这表明即使测试结果为阳性,实际患病的概率也只有大约15.4%。这个示例展示了通过现有数据和先验知识更新对未知参数的概率估计结果。
644

被折叠的 条评论
为什么被折叠?



