频率派vs贝叶斯派! |
一. 数据描述
- 对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号(假如数据有 N N N 个样本,样本的维度为 p p p):
X N × p = ( x 1 , x 2 , ⋯ , x N ) T = ( x 11 x 12 ⋯ x 1 p x 11 x 22 ⋯ x 2 p ⋮ x N 1 x N 2 ⋯ x N p ) N × p (1) \boldsymbol X_{N\times p}=(\boldsymbol x_{1},\boldsymbol x_{2},\cdots,\boldsymbol x_{N})^{T}=\left(\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1 p} \\ x_{11} & x_{22} & \cdots & x_{2 p} \\ \vdots & & & \\ x_{N 1} & x_{N 2} & \cdots & x_{N p} \end{array}\right)_{N \times p} \tag{1} XN×p=(x1,x2,⋯,xN)T= x11x11⋮xN1x12x22xN2⋯⋯⋯x1px2pxNp N×p(1) 其中每个观测都是由 p ( x ∣ θ ) p(x|\theta) p(x∣θ) 生成的。
二. 频率派观点
- p ( x ∣ θ ) p(x|\theta) p(x∣θ)中的 θ \theta θ 是一个未知常量。对于 N N N 个观测来说观测集的概率为 p ( X ∣ θ ) = i i d ∏ i = 1 N p ( x i ∣ θ ) ) p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(\boldsymbol x_{i}|\theta)) p(X∣θ)iid=i=1∏Np(xi∣θ))(iid表示独立同分布,每个样本都服从 x i ∼ p ( x ∣ θ ) \boldsymbol x_{i} \sim p(x|\theta) xi∼p(x∣θ))。为了求 θ \theta θ 的大小,我们采用最大对数似然(MLE)的方法:
θ M L E = argmax θ p ( X ∣ θ ) = i i d argmax θ ∑ i = 1 N p ( x i ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) ) (2) \theta_{MLE}=\mathop{\text {argmax}}\limits _{\theta}p(\boldsymbol X|\theta)\mathop{=}\limits _{iid}\mathop{\text {argmax}}\limits _{\theta}\sum\limits _{i=1}^{N}p(\boldsymbol x_{i}|\theta)=\prod\limits _{i=1}^{N}p(\boldsymbol x_{i}|\theta))\tag{2} θMLE=θargmaxp(X∣θ)iid=θargmaxi=1∑Np(xi∣θ)=i=1∏Np(xi∣θ))(2)- 为了简化运算,通常加上log,如下:
θ M L E = argmax θ log P ( X ∣ θ ) ⏟ L ( θ ) = i i d argmax θ ∑ i = 1 N log p ( x i ∣ θ ) (3) \theta_{MLE}=\mathop{\text {argmax}}\limits _{\theta} \underbrace{\log P(\boldsymbol X \mid \theta)}_{\mathcal{L}(\theta)}\mathop{=}\limits _{iid}\mathop{\text {argmax}}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)\tag{3} θMLE=θargmaxL(θ) logP(X∣θ)iid=θargmaxi=1∑Nlogp(xi∣θ)(3)
三. 贝叶斯派观点
- 贝叶斯派认为 p ( x ∣ θ ) p(x|\theta) p(x∣θ) 中的 θ \theta θ 不是一个常量。这个 θ \theta θ 满足一个预设的 先验分布 θ ∼ p ( θ ) \theta\sim p(\theta) θ∼p(θ) 。于是根据 贝叶斯定理 依赖观测集参数的后验可以写成:
p ( θ ∣ X ) = p ( X ∣ θ ) ⋅ p ( θ ) p ( X ) = p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ (4) p(\theta|\boldsymbol X)=\frac{p(\boldsymbol X|\theta)\cdot p(\theta)}{p(\boldsymbol X)}=\frac{p(\boldsymbol X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(\boldsymbol X|\theta)\cdot p(\theta)d\theta}\tag{4} p(θ∣X)=p(X)p(X∣θ)⋅p(θ)=θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)(4)- 为了求 θ \theta θ 的值,我们要最大化这个参数后验MAP(最大概率后验估计):
θ M A P = argmax θ p ( θ ∣ X ) = argmax θ p ( X ∣ θ ) ⋅ p ( θ ) (5) \theta_{MAP}=\mathop{\text {argmax}}\limits _{\theta}p(\theta|\boldsymbol X)=\mathop{\text {argmax}}\limits _{\theta}p(\boldsymbol X|\theta)\cdot p(\theta)\tag{5} θMAP=θargmaxp(θ∣X)=θargmaxp(X∣θ)⋅p(θ)(5)- 其中第二个等号是由于分母和 θ \theta θ 没有关系。求解这个 θ \theta θ 值后计算 p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ \frac{p(\boldsymbol X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(\boldsymbol X|\theta)\cdot p(\theta)d\theta} θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ) ,就得到了参数的后验概率。其中 p ( X ∣ θ ) p(\boldsymbol X|\theta) p(X∣θ) 叫似然,是我们的模型分布。得到了参数的后验分布后,我们可以将这个分布用于预测贝叶斯预测:
p ( x n e w ∣ X ) = ∫ θ p ( x n e w ∣ θ ) ⋅ p ( θ ∣ X ) d θ (6) p(x_{new}|\boldsymbol X)=\int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|\boldsymbol X)d\theta\tag{6} p(xnew∣X)=θ∫p(xnew∣θ)⋅p(θ∣X)dθ(6) 其中积分中的被乘数是模型,乘数是后验分布。
四. 总结
- 频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论(解loss function的问题)占有重要地位。而 贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。