期望对数似然和对应的估计量
我们可以通过计算KL信息来评估给定模型的合适性。 但是,KL信息在真实建模中只能在有限的几个例子中使用,因为KL信息包含了未知分布 g g g,这使得KL信息不能被直接计算。
KL信息可以被分解为
I
(
g
;
f
)
=
E
G
[
log
{
g
(
X
)
f
(
X
)
}
]
=
E
G
[
log
g
(
X
)
]
−
E
G
[
log
f
(
X
)
]
I(g ; f)=E_G\left[\log \left\{\frac{g(X)}{f(X)}\right\}\right]=E_G[\log g(X)]-E_G[\log f(X)]
I(g;f)=EG[log{f(X)g(X)}]=EG[logg(X)]−EG[logf(X)]
此外,等式右边的第一项是一个常数,因为它仅仅依赖于真实模型
g
g
g,显然为了比较不同的模型,仅考虑上式的第二项即可。 这一项被称为期望对数似然(expected log-likelihood). 这一项的值越大,KL信息越小,则该模型越好。
因为期望对数似然可以表达为
E
G
[
log
f
(
X
)
]
=
∫
log
f
(
x
)
d
G
(
x
)
=
{
∫
−
∞
∞
g
(
x
)
log
f
(
x
)
d
x
,
连续模型,
∑
i
=
1
∞
g
(
x
i
)
log
f
(
x
i
)
,
离散模型,
\begin{aligned} E_G[\log f(X)] &=\int \log f(x) d G(x) \\ &=\left\{\begin{array}{ll} \int_{-\infty}^{\infty} g(x) \log f(x) d x, & \text {连续模型, } \\ \sum_{i=1}^{\infty} g\left(x_i\right) \log f\left(x_i\right), & \text {离散模型, } \end{array}\right. \end{aligned}
EG[logf(X)]=∫logf(x)dG(x)={∫−∞∞g(x)logf(x)dx,∑i=1∞g(xi)logf(xi),连续模型, 离散模型,
我们发现,期望对数似然仍然依赖于真实分布
g
g
g,这是一个无法明确计算的未知量。可是,如果能从数据中获得一个良好的期望对数似然的估计,那么这个估计可以用来作为比较模型的准则。
我们考虑如下的问题,定义
x
n
=
{
x
1
,
x
2
,
…
,
x
n
}
\boldsymbol{x}_n=\left\{x_1, x_2, \ldots, x_n\right\}
xn={x1,x2,…,xn}是从真实分布
G
(
x
)
G(x)
G(x)或
g
(
x
)
g(x)
g(x)获得的观测数据。通过将未知的概率分布
G
G
G用基于观测数据的经验分布函数
G
^
\hat{G}
G^替换,我们可以获得一个期望对数似然的估计。 众所周知,经验分布函数是概率函数为
g
^
(
x
α
)
=
1
/
n
,
α
=
1
,
…
,
n
\hat{g}(x_{\alpha}) = 1/n,\alpha = 1,\dots,n
g^(xα)=1/n,α=1,…,n的分布函数。这意味着
n
n
n个观测中的每一个观测具有相等的概率
1
/
n
1/n
1/n。事实上,通过这种替换,我们可以获得,
E
G
^
[
log
f
(
X
)
]
=
∫
log
f
(
x
)
d
G
^
(
x
)
=
∑
α
=
1
n
g
^
(
x
α
)
log
f
(
x
α
)
=
1
n
∑
α
=
1
n
log
f
(
x
α
)
.
\begin{aligned} E_{\hat{G}}[\log f(X)] &=\int \log f(x) d \hat{G}(x) \\ &=\sum_{\alpha=1}^n \hat{g}\left(x_\alpha\right) \log f\left(x_\alpha\right) \\ &=\frac{1}{n} \sum_{\alpha=1}^n \log f\left(x_\alpha\right) . \end{aligned}
EG^[logf(X)]=∫logf(x)dG^(x)=α=1∑ng^(xα)logf(xα)=n1α=1∑nlogf(xα).
基于大数定律,当
n
→
∞
n \to \infty
n→∞, 随机变量的均值
Y
α
=
log
f
(
X
α
)
,
α
=
1
,
…
,
n
Y_\alpha=\log f\left(X_\alpha\right),\alpha = 1,\dots,n
Yα=logf(Xα),α=1,…,n依概率收敛于它的期望。也就是说,下面的收敛是成立的,即
1
n
∑
α
=
1
n
log
f
(
X
α
)
⟶
E
G
[
log
f
(
X
)
]
,
n
→
+
∞
\frac{1}{n} \sum_{\alpha=1}^n \log f\left(X_\alpha\right) \longrightarrow E_G[\log f(X)], \quad n \rightarrow+\infty
n1α=1∑nlogf(Xα)⟶EG[logf(X)],n→+∞
因此,显然,我们发现期望对数似然的一个自然估计是基于概率分布函数的估计。
n
∫
log
f
(
x
)
d
G
^
(
x
)
=
∑
α
=
1
n
log
f
(
x
α
)
n \int \log f(x) d \hat{G}(x)=\sum_{\alpha=1}^n \log f\left(x_\alpha\right)
n∫logf(x)dG^(x)=α=1∑nlogf(xα)
期望对数似然的估计乘以
n
n
n就是模型
f
(
x
)
f(x)
f(x)的对数似然(log-likelihood)。 这意味着在统计分析中频繁使用的对数似然可以清楚地理解为KL信息的近似。