频率派 VS 贝叶斯派
机器学习中引入概率很自然,把数据当做是一个概率模型。
X:表示数据 data ——> 有 N 个样本,每个样本维度为 P:
X
=
(
x
1
x
2
.
.
.
x
N
)
N
×
P
T
X = (x_{1} x_{2} ... x_{N})^{T}_{N \times P}
X=(x1x2...xN)N×PT
θ
\theta
θ:表示参数 parameter
频率派:认为模型的参数 θ \theta θ 是一个未知的常量。数据 X 是一个随机变量,关心的是数据。需要将未知的常量 θ \theta θ 给估计出来。常用的方法是最大似然估计:
MLE:极大似然估计
θ
M
L
E
=
a
r
g
m
a
x
θ
l
o
g
P
(
X
∣
θ
)
\theta_{MLE} = argmax_{\theta} log P(X|\theta)
θMLE=argmaxθlogP(X∣θ)
x i ∼ i i d p ( x ∣ θ ) x_{i} \sim^{iid} p(x|\theta) xi∼iidp(x∣θ)
贝叶斯派:和频率派不同,贝叶斯派认为参数 θ \theta θ 不是常量, θ \theta θ 本身也是一个随机变量,服从一个概率分布。 θ ∼ p ( θ ) \theta \sim p(\theta) θ∼p(θ) 称为先验。
借助贝叶斯定理把参数的先验和后验用似然将其连接起来:
p
(
θ
∣
X
)
=
p
(
X
∣
θ
)
∗
p
(
θ
)
p
(
X
)
∝
p
(
X
∣
θ
)
∗
p
(
θ
)
p(\theta|X) = \frac{p(X|\theta) * p(\theta)}{p(X)} \propto p(X|\theta) * p(\theta)
p(θ∣X)=p(X)p(X∣θ)∗p(θ)∝p(X∣θ)∗p(θ)
分母 p ( X ) = ∫ θ p ( X ∣ θ ) ∗ p ( θ ) d θ p(X) = \int_{\theta}p(X|\theta)*p(\theta)d\theta p(X)=∫θp(X∣θ)∗p(θ)dθ
MAP:最大后验估计
从严格意义上讲,MAP并不是标准的贝叶斯方法。标准的贝叶斯方法就是要求积分!
贝叶斯估计:标准的贝叶斯估计就是要求解 ——>
p
(
θ
∣
X
)
=
p
(
X
∣
θ
)
∗
p
(
θ
)
∫
θ
p
(
X
∣
θ
)
∗
p
(
θ
)
d
θ
p(\theta|X) = \frac{p(X|\theta) * p(\theta)}{\int_{\theta}p(X|\theta)*p(\theta)d\theta}
p(θ∣X)=∫θp(X∣θ)∗p(θ)dθp(X∣θ)∗p(θ)
贝叶斯估计的目的就是要求概率分布
p
(
θ
∣
X
)
p(\theta|X)
p(θ∣X)整体,那么求出这个后验概率分布能够做什么呢?可以引入一个贝叶斯预测!
贝叶斯预测:已知数据X,若引入一个新数据
x
~
\widetilde{x}
x
,这个预测问题就是要求
p
(
x
~
∣
X
)
=
∫
θ
p
(
x
~
,
θ
∣
X
)
d
θ
=
∫
θ
p
(
x
~
∣
θ
)
p
(
θ
∣
X
)
d
θ
p(\widetilde{x}|X) = \int_{\theta}p(\widetilde{x}, \theta|X)d\theta = \int_{\theta}p(\widetilde{x}|\theta)p(\theta|X)d\theta
p(x
∣X)=∫θp(x
,θ∣X)dθ=∫θp(x
∣θ)p(θ∣X)dθ(此时,需要引入参数
θ
\theta
θ作为已知数据X和未知数据
x
~
\widetilde{x}
x
之间的桥梁)
所以在做预测问题时,我们必须要先求解出后验概率
p
(
θ
∣
X
)
p(\theta|X)
p(θ∣X)
我们可以发现在求后验的过程中其实是一个积分问题,要在整个参数空间中对其进行求积分,这个计算是非常复杂的,或者说有时候根本无法求解。所以就引申出很多新的计算方法。
贝叶斯 ——> 概率图模型
贝叶斯本质上 ——> 求积分 ——> (若解析解无法求解,可以用数值积分,用蒙特卡洛的方法MCMC采样方法来求积分)
频率派 ——> 统计机器学习
实际上是一个优化问题:
1.设计模型:可以是一个概率模型,或者一个非概率模型
2.导出一个Loss Function
3.Algorithm:梯度下降、拟牛顿法等
起本质上是一个优化问题。