模型评价-期望对数似然和对应的估计量

期望对数似然和对应的估计量

我们可以通过计算KL信息来评估给定模型的合适性。 但是,KL信息在真实建模中只能在有限的几个例子中使用,因为KL信息包含了未知分布 g g g,这使得KL信息不能被直接计算。

KL信息可以被分解为
I ( g ; f ) = E G [ log ⁡ { g ( X ) f ( X ) } ] = E G [ log ⁡ g ( X ) ] − E G [ log ⁡ f ( X ) ] I(g ; f)=E_G\left[\log \left\{\frac{g(X)}{f(X)}\right\}\right]=E_G[\log g(X)]-E_G[\log f(X)] I(g;f)=EG[log{f(X)g(X)}]=EG[logg(X)]EG[logf(X)]
此外,等式右边的第一项是一个常数,因为它仅仅依赖于真实模型 g g g,显然为了比较不同的模型,仅考虑上式的第二项即可。 这一项被称为期望对数似然(expected log-likelihood). 这一项的值越大,KL信息越小,则该模型越好。

因为期望对数似然可以表达为
E G [ log ⁡ f ( X ) ] = ∫ log ⁡ f ( x ) d G ( x ) = { ∫ − ∞ ∞ g ( x ) log ⁡ f ( x ) d x , 连续模型,  ∑ i = 1 ∞ g ( x i ) log ⁡ f ( x i ) , 离散模型,  \begin{aligned} E_G[\log f(X)] &=\int \log f(x) d G(x) \\ &=\left\{\begin{array}{ll} \int_{-\infty}^{\infty} g(x) \log f(x) d x, & \text {连续模型, } \\ \sum_{i=1}^{\infty} g\left(x_i\right) \log f\left(x_i\right), & \text {离散模型, } \end{array}\right. \end{aligned} EG[logf(X)]=logf(x)dG(x)={g(x)logf(x)dx,i=1g(xi)logf(xi),连续模型离散模型
我们发现,期望对数似然仍然依赖于真实分布 g g g,这是一个无法明确计算的未知量。可是,如果能从数据中获得一个良好的期望对数似然的估计,那么这个估计可以用来作为比较模型的准则。

我们考虑如下的问题,定义 x n = { x 1 , x 2 , … , x n } \boldsymbol{x}_n=\left\{x_1, x_2, \ldots, x_n\right\} xn={x1,x2,,xn}是从真实分布 G ( x ) G(x) G(x) g ( x ) g(x) g(x)获得的观测数据。通过将未知的概率分布 G G G用基于观测数据的经验分布函数 G ^ \hat{G} G^替换,我们可以获得一个期望对数似然的估计。 众所周知,经验分布函数是概率函数为 g ^ ( x α ) = 1 / n , α = 1 , … , n \hat{g}(x_{\alpha}) = 1/n,\alpha = 1,\dots,n g^(xα)=1/n,α=1,,n的分布函数。这意味着 n n n个观测中的每一个观测具有相等的概率 1 / n 1/n 1/n。事实上,通过这种替换,我们可以获得,
E G ^ [ log ⁡ f ( X ) ] = ∫ log ⁡ f ( x ) d G ^ ( x ) = ∑ α = 1 n g ^ ( x α ) log ⁡ f ( x α ) = 1 n ∑ α = 1 n log ⁡ f ( x α ) . \begin{aligned} E_{\hat{G}}[\log f(X)] &=\int \log f(x) d \hat{G}(x) \\ &=\sum_{\alpha=1}^n \hat{g}\left(x_\alpha\right) \log f\left(x_\alpha\right) \\ &=\frac{1}{n} \sum_{\alpha=1}^n \log f\left(x_\alpha\right) . \end{aligned} EG^[logf(X)]=logf(x)dG^(x)=α=1ng^(xα)logf(xα)=n1α=1nlogf(xα).
基于大数定律,当 n → ∞ n \to \infty n, 随机变量的均值 Y α = log ⁡ f ( X α ) , α = 1 , … , n Y_\alpha=\log f\left(X_\alpha\right),\alpha = 1,\dots,n Yα=logf(Xα),α=1,,n依概率收敛于它的期望。也就是说,下面的收敛是成立的,即
1 n ∑ α = 1 n log ⁡ f ( X α ) ⟶ E G [ log ⁡ f ( X ) ] , n → + ∞ \frac{1}{n} \sum_{\alpha=1}^n \log f\left(X_\alpha\right) \longrightarrow E_G[\log f(X)], \quad n \rightarrow+\infty n1α=1nlogf(Xα)EG[logf(X)],n+
因此,显然,我们发现期望对数似然的一个自然估计是基于概率分布函数的估计
n ∫ log ⁡ f ( x ) d G ^ ( x ) = ∑ α = 1 n log ⁡ f ( x α ) n \int \log f(x) d \hat{G}(x)=\sum_{\alpha=1}^n \log f\left(x_\alpha\right) nlogf(x)dG^(x)=α=1nlogf(xα)
期望对数似然的估计乘以 n n n就是模型 f ( x ) f(x) f(x)的对数似然(log-likelihood)这意味着在统计分析中频繁使用的对数似然可以清楚地理解为KL信息的近似。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大浪淘沙_scc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值