先总结下频率派与贝叶斯派各自不同的思考方式:
~频率派把未知参数 θ \theta θ当作是固定的未知常数。样本X是随机的,重点研究的是样本空间,大部分的计算也是针对样本X的分布
~贝叶斯派截然相反,认为 θ \theta θ是随机变量,样本X是固定的。重点研究的是参数 θ \theta θ分布
频率派很好理解,因为X样本已知,所以在最大似然方法下很容易去求得一个 θ \theta θ值使得模型的概率最大。而贝叶斯认为 θ \theta θ是随机变量,求的是 θ \theta θ的分布,但我们并没有 θ \theta θ的样本空间也就不知道 θ \theta θ的无条件分布。由此引出了贝叶斯原理最核心的公式 p ( θ ∣ X ) = p ( X ∣ θ ) p ( θ ) p ( X ) p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)} p(θ∣X)=p(X)p(X∣θ)p(θ) 先 验 信 息 + 样 本 信 息 → 后 验 信 息 先验信息+样本信息\rightarrow 后验信息 先验信息+样本信息→后验信息新样本X的信息起到了对先验信息的修正作用,使得后验信息达到最大值的方法称为MAP类似于极大似然估计。
先验 p ( θ ) p(\theta) p(θ)是在事件X发生前的概率
后验 p ( θ ∣ X ) p(\theta|X) p(θ∣X)是在事件X发生后,我们重新评估了 θ \theta θ的概率
更通俗的理解 p ( 规 律 ∣ 现 象 ) = p ( 现 象 ∣ 规 律 ) p ( 规 律 ) p ( 现 象 ) p(规律|现象)=\frac{p(现象|规律)p(规律)}{p(现象)} p(规律∣现象)=p(现象)p(现象∣规律)p(规律)