最大似然估计_交叉熵和最大似然估计

我们正在努力训练神经网络模型进行分类。我们设计网络深度,激活函数,设置所有超参数,然后选择损失函数。正如我们所说的,我们使用交叉熵损失函数,因为它适合于分类。

熵是随机变量不确定性的变量。如果我们有一个随机变量X,我们有概率质量函数p(X)= PR [ X = x ],我们定义随机变量X的熵为H(X)

7540a4211eac2425da3ca34ec264abd0.png

现在,我们怎样才能知道这个值H(X)对应X的不确定性?如果有一个x的概率为1。如果我们把它放在等式(1)中,我们得到

71d4ce10a07b6f9dd6194b2dfea3b6c8.png

第二行中的第一项等于0乘以log(1)和第二项等于0乘以p(x_hat)因为p(x)的和应该是1。注意,我们使用0 log 0 = 0 ,x log x→0 =>x→0。因此,如果我们非常确定随机变量将有一个值,则意味着不确定性将非常低。这个概念在在Bernoulli分布中H(p)vs p的图中得到了很好的体现。

5fbe15b358d6b804c1d26cc7995d589b.png

H( p)vs p

如果我们仔细研究随机变量熵的定义,我们可以会发现熵与随机变量的期望有关,我们可以写成:

38183b2a56575e8b4881a19dbf13704d.png

所以随机变量的熵是随机变量log(1 / p(x))的期望值,其中X是从p(x)中得到的。注意,我们也可以用H(p)表示熵。

现在假设我们有一个未知的真实分布p(x),我们已经建立了一个近似分布q(x)的模型,假设真实分布是q(x),而不是p(x)的低效性可以用相对熵或Kullback-Leibler距离来测量。换句话说,相对熵是两个分布之间距离的度量。相对熵D(p||q)定义为

911588a5da15b63bd2d88fb78c7591d0.png

如果我们扩展log(p(x)/ q(x)),我们可以得到

8491b870a17435f87859a9ffba73487c.png

右边的第二项是分布p(x)的熵,右边的第一项是交叉熵。我们可以看到交叉熵与相对熵密切相关,我们可以定义交叉熵,表示为H(pq)为

3a23b00187524240320cf98e257d7a01.png

这就是交叉熵,现在它是如何与模型损失相适应?

我们需要重新理解机器学习的一个核心原则,即最大似然估计(MLE)。假设对于一个问题,我们有一组示例Xexample = { x_1,x _2,...,x _m},它们独立于真实但未知的分布pdata(x)绘制。然后我们以θ为参数并尝试用参数模型pmodel(x ;θ)模拟真实分布。我们可以说pmodel(x,θ)映射x以估计给定相同数据的真实但未知的pdata(x)。为了得到最好的模型,我们需要找到这样的θ即生成与pmodel(X,θ)最相似的结果pdata(x)。我们可以使用MLE原理来找到这样的θ,即通过对使用最大似然估计,其定义为

ebafdf505b25b64a76f259d279406747.png

由于Xexample中的每个示例xi彼此独立,因此我们可以将θML写为

889d7dde4f3ff3af705aa55fab4853cd.png

p_model的乘积(Xi;θ)将是非常接近0时的示例集大小m是大概率的范围将在0≤pmodel的范围(Xi;θ)≤1。这可能导致计算机严重低溢,导致模型估计不精确。避免这个问题的一种方法是交替计算pmodel(xi;θ)的对数之和。

4e5c72ee88105f822aacfe476c957c2b.png

这解决了低溢问题,因为概率的对数将变为负值而不是像1e-30那样的某个数字。我们还将乘积转换为总和,从而实现更易于管理的计算。由于arg max将是相同的,因此等式9将产生与等式8相同的参数θML,同时具有上述优点。现在,由于当我们缩放对数概率时arg max也没有改变,我们可以写成

98aa78facbe11ab17579a2c5593e2225.png

并且仍然产生与等式8和9相同的θML。

公式10显示了交叉熵与最大似然估计原理的关系,即如果我们将pexample(x)作为p(x)而pmodel(x ;θ)作为q(x),我们可以将公式10写为

31ef8e4e7376c7df136cb7fd014c2207.png

我们熟悉方程的最后一项,因为它是等式6中定义的交叉熵。这表明我们可以看到使用最大似然估计获得最佳参数θML的问题,因为我们的参数模型之间的交叉熵最小化pmodel(x ;θ)和实证实例分布pexample(x)。

该思维过程表明,通过最小化交叉熵损失来训练我们的模型是明智的,因为它可以引导我们根据训练示例产生最佳模型的参数θML的最大似然估计。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值