频率学派和贝叶斯学派
概率模型的训练过程其实是参数估计(parameter estimation)的过程。对于参数的估计,统计学界的两个学派提供了各自的解决方案:频率学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,所以可以通过优化似然函数等准则来确定参数值;贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量,其本身也有分布,因此,可假设参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
定义数据集如下:
X
N
×
p
=
(
x
1
,
x
2
,
⋯
,
x
N
)
T
,
x
i
=
(
x
i
1
,
x
i
2
,
⋯
,
x
i
p
)
T
X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}
XN×p=(x1,x2,⋯,xN)T,xi=(xi1,xi2,⋯,xip)T
N
N
N 个样本,每个样本都是
p
p
p 维向量,表示每个样本具有
p
p
p个特征。我们假设每个观测都是由
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ) 生成。
频率派
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ)中的
θ
\theta
θ 是一个固定的参数。对于
N
N
N 个独立观测来说观测集的联合概率为
p
(
x
∣
θ
)
=
∏
i
=
1
N
p
(
x
i
∣
θ
)
p\left( x|\theta \right) =\prod_{i=1}^N{p\left( x_i|\theta \right)}
p(x∣θ)=i=1∏Np(xi∣θ)
对于
θ
\theta
θ 的求解,我们采用最大对数似然估计(Maximum likelihood estimate,MLE):
θ ^ M L E = a r g max θ log p ( x ∣ θ ) = a r g max θ ∑ i N log p ( x i ∣ θ ) \hat{\theta}_{MLE}=arg\underset{\theta}{\max}\log p\left( x|\theta \right) =arg\underset{\theta}{\max}\sum_i^N{\log p\left( x_i|\theta \right)} θ^MLE=argθmaxlogp(x∣θ)=argθmaxi∑Nlogp(xi∣θ)
贝叶斯派
贝叶斯派认为 p ( x ∣ θ ) p(x|\theta) p(x∣θ) 的参数 θ \theta θ是一个未观测到的随机变量且满足某个先验分布,我们这里假设 θ ∼ p ( θ ) \theta\sim p(\theta) θ∼p(θ) 。根据贝叶斯定理,基于观测集参数的后验分布求法如下
p
(
θ
∣
x
)
=
p
(
x
∣
θ
)
⋅
p
(
θ
)
p
(
x
)
=
p
(
x
∣
θ
)
⋅
p
(
θ
)
∫
θ
p
(
x
∣
θ
)
⋅
p
(
θ
)
d
θ
∝
p
(
x
∣
θ
)
⋅
p
(
θ
)
p\left( \theta |x \right) =\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{p\left( x \right)}=\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{\int\limits_{\theta}{p}\left( x|\theta \right) \cdot p\left( \theta \right) d\theta}\propto p\left( x|\theta \right) \cdot p\left( \theta \right)
p(θ∣x)=p(x)p(x∣θ)⋅p(θ)=θ∫p(x∣θ)⋅p(θ)dθp(x∣θ)⋅p(θ)∝p(x∣θ)⋅p(θ)
其中$p\left( x|\theta \right) $叫做似然。
求 θ \theta θ 的值,我们使用最大后验概率(maximum a posteriori probability,MAP)方法
θ ^ M A P = a r g max θ p ( θ ∣ x ) = a r g max θ p ( x ∣ θ ) ⋅ p ( θ ) \hat{\theta}_{MAP}=arg\underset{\theta}{\max}p\left( \theta |x \right) =arg\underset{\theta}{\max}p\left( x|\theta \right) \cdot p\left( \theta \right) θ^MAP=argθmaxp(θ∣x)=argθmaxp(x∣θ)⋅p(θ)
得到
θ
\theta
θ后,便得到其后验概率
p
(
θ
∣
x
)
=
p
(
x
∣
θ
)
⋅
p
(
θ
)
∫
θ
p
(
x
∣
θ
)
⋅
p
(
θ
)
d
θ
p\left( \theta |x \right) =\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{\int\limits_{\theta}{p}\left( x|\theta \right) \cdot p\left( \theta \right) d\theta}
p(θ∣x)=θ∫p(x∣θ)⋅p(θ)dθp(x∣θ)⋅p(θ)
小结:尽管贝叶斯学派和频率学派的部分观点受到质疑,但是两大学派如今仍然发挥着重要作用,对实际应用中的一些问题,两种学派的方法都能给出比较准确的解决方案。对于我们应用者来说,针对不同的场景,选择合适的方法才是主要的。
参考:
李航统计机器学习
周志华西瓜书