最大似然估计
最大似然估计是一种估计模型参数的方法。假设我们有一个样本集合 D = { x 1 , x 2 , … , x n } \text{D}=\{x_1,x_2,\ldots,x_n\} D={x1,x2,…,xn},其中每个样本 x i x_i xi是根据未知概率分布 p ( ⋅ ) p(\cdot) p(⋅)独立地生成的。最大似然原理认为,我们应该选择使似然函数最大化的模型参数值集,也就是在所有可能的参数取值中,选取能够最大程度"解释"这些观测数据的参数值。
具体来说,我们需要定义关于参数
θ
θ
θ 的似然函数(Likelihood Function):
L
(
θ
∣
D
)
=
∏
i
=
1
n
p
θ
(
x
i
)
L(\theta|\text{D})=\prod\limits_{i=1}^n p_\theta(x_i)
L(θ∣D)=i=1∏npθ(xi)
其中,
p
θ
(
x
i
)
p_θ(x_i)
pθ(xi) 表示在给定参数
θ
θ
θ 的条件下,样本
x
i
x_i
xi 发生的概率,
n
n
n 表示样本个数。
然后,最大似然原理会在所有可能的参数取值中寻找一个值
θ
^
\hat{\theta}
θ^,使得似然函数取到最大值:
θ
^
=
argmax
θ
θ
^
(
θ
∣
D
)
{\hat{\theta}}={\underset{\theta}{\operatorname{argmax}}}{\hat{\theta}}({\theta}|{\mathsf{D}})
θ^=θargmaxθ^(θ∣D)
通常为了方便计算,我们将上述问题转化为等价的最小化问题。利用对数函数的性质,将似然函数取对数,并改写为每个样本的损失函数的和:
θ
^
=
argmax
θ
L
(
θ
∣
D
)
=
argmax
θ
∑
i
=
1
n
log
p
θ
(
x
i
)
=
argmin
θ
−
1
n
∑
i
=
1
n
log
p
θ
(
x
i
)
=
argmin
θ
E
x
∼
p
χ
[
−
log
p
θ
(
x
)
]
\begin{aligned} \widehat{\theta}& =\operatorname{argmax}_{\theta}L(\theta|\text{D}) \\ &=\operatorname{argmax}_\theta\sum\limits_{i=1}^n\log p_\theta(x_i) \\ &=\underset{\theta}{\operatorname{argmin}}-\frac1n\sum_{i=1}^n\log p_\theta(x_i) \\ &=\underset{\theta}{\operatorname{argmin}}\mathbb{E}_{x\sim p\chi}[-\log p_\theta(x)] \end{aligned}
θ
=argmaxθL(θ∣D)=argmaxθi=1∑nlogpθ(xi)=θargmin−n1i=1∑nlogpθ(xi)=θargminEx∼pχ[−logpθ(x)]
其中,
E
x
∼
p
χ
[
−
log
p
θ
(
x
)
]
\mathbb{E}_{x\sim p\chi}[-\log p_\theta(x)]
Ex∼pχ[−logpθ(x)]表示使用真实分布
p
χ
p\chi
pχ计算每个样本的负对数似然,并取平均(即期望值)。所以最终我们将最大化似然函数的问题转化为了最小化负对数似然损失函数的问题。需要注意的是,在一些具体的问题中,我们会对
p
χ
p\chi
pχ的分布形式做出一些假设,例如正态分布、泊松分布等等,以便对其进行求解。
p
χ
p\chi
pχ和
p
θ
(
⋅
)
p_\theta(\cdot)
pθ(⋅) 是两个不同的概率分布。其中,
p
χ
p\chi
pχ称为卡方分布,它是以自由度为参数的连续分布。而
p
θ
(
⋅
)
p_\theta(\cdot)
pθ(⋅)是我们在最大似然估计中需要求解的概率分布,它是一个未知分布,我们需要确定其参数
θ
θ
θ,从而使得该分布能够最好地解释观测数据。
此外,最大似然原理还满足一些基本性质,如渐进正态性、不变性和有效性等。因此,最大似然原理是一种常用、有效的参数估计方法。