两者最主要的区别-未知参数的理解
对于概率派来说:未知参数θ 是固定值,而我们观察(采样)到的数据是这个分布中的一个独立同分布样本,未知参数只要通过大量的样本数据统计,就可以无限逼近。因此概率派容易受样本数据过少,容易发生过拟合,所以需要我们加入正则化
对于贝叶斯派来说:未知参数θ 是一个概率分布,而我们观察(采样)数据是“固定”值,同时加入了我们的先验概率(简单理解前人的经验)。
举列子
硬币例子的模型是二项分布 B(N,θ),其中N为重复次数,θ为正面概率.
对于概率派来说:经常使用的方法就是极大似然估计
P( X | θ) = ∏ i = 1 N p ( x i ∣ θ ) \prod_{i=1}^N p(x_i | θ) ∏i=1Np(xi∣θ)
argmax P( X | θ)—> θ MLE
上面求解θ 时候一般通过梯度下降等求导求解
对于贝叶斯派: 经常使用的方法就是贝叶斯公式
P(θ | X ) = P( X | θ) P(θ) / P(X)
需要注意:
- P(θ): 先验概率(前人经验)需要我们提前假设
- 同时我们认为P(X)分母是一个"固定值" ,所以只需要关注分子最大值
argmax P( θ | X)—> argmax P( X | θ) P(θ)—> θ MAP
参考资料:
B站up主的视频讲解
视频笔记
知乎资料