最大似然估计_最大似然估计与交叉熵的关系

本文探讨最大似然估计作为数据处理中的常用准则,介绍了最大似然函数的概念,通过KL散度解释了最大似然估计与交叉熵的关系,并讨论了最大似然估计在数据较少时可能出现的过拟合问题及其解决方案。
摘要由CSDN通过智能技术生成

1 引言

我们常估计参数,而这些估计是从那里来的呢?

我们希望有些准则可以让我们从不同模型中得到特定函数作为好的估计,而不是猜测某些函数可能是好的估计,然后分析其偏差和方差。

最常用的准则是最大似然估计。如果你从事和数据处理相关的工作,一定不会避开最大似然估计这个概念,

它是一种非常强大的工具,和深度学习领域中经常用的交叉熵有一定的关系。

2 最大似然函数

考虑一组含有 m 个样本的数据集 X = {x1, ..., xm}, 独立地由未知的真实数据生成分布 pdata(x; θ) 是由一族 θ 确定在相同空间上的概率分布。换言之,pmodel(x; θ) 将任意输入 x 映射到实数来估计真实概率 Pdata(x).对最大似然估计被定义为

d88041dcd8e5ff0ebc6ca9b76bf106e9.png

多个概率的乘积会因很多原因不便于计算。例如,计算中很可能会出现数值下溢。为了得到一个便于计算的等价优化问题,我们观察到似然对数不会改变其 arg max,但是将乘积转化成便于计算的求和形式:

5d3a9303adea798602d1c46d3c42a2f9.png

因为当重新缩放代价函数时 arg max 不会改变,我们可以除以 m 得到和训练数据经验分布 p̂data 相关的期望作为准则:

09400a9f29fd4083c187986a7d4daabe.png

3 KL散度解释最大似然

一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布p̂data 和模型分布之间的差异,两者之间的差异程度可以通过 KL 散度度量。KL 散度被定义为:

5c112048a601601b7c2f4b0bf82bf9e7.png

左边一项仅涉及数据生成过程(和实际数据有关,是常数),和模型参数无关。这意味着当训练模型最小化 KL 散度时,我们只需要最小化

1ef1054e46b23a8acd9be2309c341dc1.png

这和式 (1) 中最大化是相同的。

最小化 Kl 散度其实就是在最小化分布之间的交叉熵。任何一个负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵

例如,均匀误差是经验分布和高斯分布模型之间的交叉熵。我们可以将最大似然看作使模型分布尽可能地和经验分布 p̂data 相匹配的尝试。

理想情况下,我们希望匹配真实的数据生成分布 pdata,但我们无法直接知道这个分布。虽然最优 θ 在最大似然或是最小化 KL 散度时是相同的,但目标函数值是不一样的。

在软件中,我们通常将两者都称为最小化代价函数。因此最大化似然函数变成了最小化负对数似然 (NLL),或者等价的是最小化交叉熵。

将最大化似然看作最小化 KL散度的视角在这个情况下是有帮助的,因为已知 KL 散度最小值是零。当 x 取实数时,负对数似然是负数。

4 最大似然估计的缺点

似然函数 p(x|w) 和概率 p(x|w) 之间的区别在于:概率 p(x|w) 描述的是固定参数 w 时随机变量 x 的分布情况,而似然概率 p(x|w) 则是描述已知随机变量 x 时不同的参数对其分布的影响。

最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确。

为了避免过拟合,可以加上正则化项,我们也可以给参数加上一些先验知识,利用贝叶斯估计中的最大后验概率估计估计参数。

那么什么是贝斯斯估计?什么是最大后验估计?和最大似然的关系是什么?

请等待下次分享。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值