频率学派和贝叶斯学派

频率学派和贝叶斯学派

概率模型的训练过程其实是参数估计(parameter estimation)的过程。对于参数的估计,统计学界的两个学派提供了各自的解决方案:频率学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,所以可以通过优化似然函数等准则来确定参数值;贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量,其本身也有分布,因此,可假设参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。

定义数据集如下:

X N × p = ( x 1 , x 2 , ⋯   , x N ) T , x i = ( x i 1 , x i 2 , ⋯   , x i p ) T X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T} XN×p=(x1,x2,,xN)T,xi=(xi1,xi2,,xip)T
N N N 个样本,每个样本都是 p p p 维向量,表示每个样本具有 p p p个特征。我们假设每个观测都是由 p ( x ∣ θ ) p(x|\theta) p(xθ) 生成。

频率派

p ( x ∣ θ ) p(x|\theta) p(xθ)中的 θ \theta θ 是一个固定的参数。对于 N N N 个独立观测来说观测集的联合概率为 p ( x ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) p\left( x|\theta \right) =\prod_{i=1}^N{p\left( x_i|\theta \right)} p(xθ)=i=1Np(xiθ)
对于 θ \theta θ 的求解,我们采用最大对数似然估计(Maximum likelihood estimate,MLE):

θ ^ M L E = a r g max ⁡ θ log ⁡ p ( x ∣ θ ) = a r g max ⁡ θ ∑ i N log ⁡ p ( x i ∣ θ ) \hat{\theta}_{MLE}=arg\underset{\theta}{\max}\log p\left( x|\theta \right) =arg\underset{\theta}{\max}\sum_i^N{\log p\left( x_i|\theta \right)} θ^MLE=argθmaxlogp(xθ)=argθmaxiNlogp(xiθ)

贝叶斯派

贝叶斯派认为 p ( x ∣ θ ) p(x|\theta) p(xθ) 的参数 θ \theta θ是一个未观测到的随机变量且满足某个先验分布,我们这里假设 θ ∼ p ( θ ) \theta\sim p(\theta) θp(θ) 。根据贝叶斯定理,基于观测集参数的后验分布求法如下

p ( θ ∣ x ) = p ( x ∣ θ ) ⋅ p ( θ ) p ( x ) = p ( x ∣ θ ) ⋅ p ( θ ) ∫ θ p ( x ∣ θ ) ⋅ p ( θ ) d θ ∝ p ( x ∣ θ ) ⋅ p ( θ ) p\left( \theta |x \right) =\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{p\left( x \right)}=\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{\int\limits_{\theta}{p}\left( x|\theta \right) \cdot p\left( \theta \right) d\theta}\propto p\left( x|\theta \right) \cdot p\left( \theta \right) p(θx)=p(x)p(xθ)p(θ)=θp(xθ)p(θ)dθp(xθ)p(θ)p(xθ)p(θ)
其中$p\left( x|\theta \right) $叫做似然。

θ \theta θ 的值,我们使用最大后验概率(maximum a posteriori probability,MAP)方法

θ ^ M A P = a r g max ⁡ θ p ( θ ∣ x ) = a r g max ⁡ θ p ( x ∣ θ ) ⋅ p ( θ ) \hat{\theta}_{MAP}=arg\underset{\theta}{\max}p\left( \theta |x \right) =arg\underset{\theta}{\max}p\left( x|\theta \right) \cdot p\left( \theta \right) θ^MAP=argθmaxp(θx)=argθmaxp(xθ)p(θ)

得到 θ \theta θ后,便得到其后验概率
p ( θ ∣ x ) = p ( x ∣ θ ) ⋅ p ( θ ) ∫ θ p ( x ∣ θ ) ⋅ p ( θ ) d θ p\left( \theta |x \right) =\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{\int\limits_{\theta}{p}\left( x|\theta \right) \cdot p\left( \theta \right) d\theta} p(θx)=θp(xθ)p(θ)dθp(xθ)p(θ)

小结:尽管贝叶斯学派和频率学派的部分观点受到质疑,但是两大学派如今仍然发挥着重要作用,对实际应用中的一些问题,两种学派的方法都能给出比较准确的解决方案。对于我们应用者来说,针对不同的场景,选择合适的方法才是主要的。

参考:
李航统计机器学习
周志华西瓜书

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值