具体来说,当我们处理多个独立样本的情况下,整个数据集的似然函数通常是单个样本似然的乘积:
L
(
θ
∣
X
)
=
P
(
X
∣
θ
)
=
P
(
x
1
∣
θ
)
⋅
P
(
x
2
∣
θ
)
⋅
⋯
⋅
P
(
x
n
∣
θ
)
L(\theta | X) = P(X | \theta) = P(x_1 | \theta) \cdot P(x_2 | \theta) \cdot \dots \cdot P(x_n | \theta)
L(θ∣X)=P(X∣θ)=P(x1∣θ)⋅P(x2∣θ)⋅⋯⋅P(xn∣θ)
因为这些样本是独立的,所以每个样本的似然值可以直接相乘。但在实际计算中,直接处理乘积往往会带来非常小的数值或者数值不稳定性问题。而且对于复杂的分布,求解最大化乘积的函数也非常困难。所以为了简化计算,通常对似然函数取对数,称为对数似然函数:
ln
L
(
θ
∣
X
)
=
ln
(
P
(
x
1
∣
θ
)
⋅
P
(
x
2
∣
θ
)
⋅
⋯
⋅
P
(
x
n
∣
θ
)
)
\ln L(\theta | X) = \ln \left( P(x_1 | \theta) \cdot P(x_2 | \theta) \cdot \dots \cdot P(x_n | \theta) \right)
lnL(θ∣X)=ln(P(x1∣θ)⋅P(x2∣θ)⋅⋯⋅P(xn∣θ))
利用对数的性质:
ln
(
a
⋅
b
⋅
c
)
=
ln
a
+
ln
b
+
ln
c
\ln (a \cdot b \cdot c) = \ln a + \ln b + \ln c
ln(a⋅b⋅c)=lna+lnb+lnc
这样,似然函数中的乘积关系就变成了求和的关系:
ln
L
(
θ
∣
X
)
=
ln
P
(
x
1
∣
θ
)
+
ln
P
(
x
2
∣
θ
)
+
⋯
+
ln
P
(
x
n
∣
θ
)
\ln L(\theta | X) = \ln P(x_1 | \theta) + \ln P(x_2 | \theta) + \dots + \ln P(x_n | \theta)
lnL(θ∣X)=lnP(x1∣θ)+lnP(x2∣θ)+⋯+lnP(xn∣θ)
这样不仅简化了计算,还能帮助我们在极大似然估计过程中更方便地对参数求导,从而找到参数的最优解。
总结:
- 乘积变加法 是通过对似然函数取对数实现的,利用了对数的性质,使得多个概率的乘积变为对数概率的和。
- 这大大简化了计算过程,并避免了数值计算中的小数值问题。