最大似然与交叉熵之间的关系以及互相推导过程

最大似然与交叉熵之间的关系

最大似然估计(Maximum Likelihood Estimation, MLE)和交叉熵(Cross-Entropy, CE)是机器学习中两个密切相关的概念,尤其是在分类问题和神经网络的训练中。

最大似然估计(MLE)
  1. 核心思想: 最大似然估计是一种在给定数据下估计模型参数的方法。它选择参数值使得观测数据出现的概率最大。

  2. 数学表达: 对于数据集( {x^{(1)}, x^{(2)}, ..., x^{(n)}} )和参数( \theta ),似然函数为( L(\theta) = P(x^{(1)}, x^{(2)}, ..., x^{(n)}|\theta) )。通常使用对数似然( \log L(\theta) )来简化计算。

交叉熵(CE)
  1. 定义: 交叉熵是衡量两个概率分布( p )和( q )之间差异的指标。在机器学习中,( p )通常代表真实分布,而( q )代表模型预测的分布。

  2. 计算公式: 交叉熵定义为( H(p, q) = -\sum p(x) \log q(x) ),其中求和遍历所有可能的事件。

最大似然估计
  1. 定义: 最大似然估计是一种参数估计方法。在给定数据集的情况下,它寻找能够使数据出现概率(即似然函数)最大化的参数值。

  2. 计算: 似然函数通常定义为所有数据点出现概率的乘积。在实践中,为了避免数值下溢和方便求导,通常对似然函数取对数,得到对数似然函数。

交叉熵
  1. 定义: 交叉熵是衡量两个概率分布之间差异的指标。在分类问题中,它常用来衡量模型预测的概率分布与真实标签的概率分布之间的差异。

  2. 计算: 对于二分类问题,交叉熵可以用下面的公式计算:

    ⁡H(p,q)=−∑​p(x)logq(x)

    其中( p(x) )是真实分布,( q(x) )是预测分布。在多分类问题中,公式会相应扩展。

关系
  1. 等价性: 当使用对数似然函数作为目标函数时,最大化似然函数等价于最小化交叉熵。在分类问题中,模型的输出可以被视为预测概率分布,而真实的标签可以被视为真实概率分布。

  2. 损失函数: 在神经网络的分类任务中,交叉熵常被用作损失函数。如果将模型的输出解释为条件概率分布,那么最小化交叉熵损失函数就相当于最大化数据的对数似然。

  3. 联系: 最大似然估计提供了一个统计框架,而交叉熵提供了一个衡量预测准确性的具体方法。它们在形式上是等价的,因为最大化对数似然等同于最小化预测概率分布和真实概率分布之间的交叉熵。

结论

最大似然估计和交叉熵在本质上是相同的,它们都旨在找到最佳的参数,使得模型的预测尽可能接近真实数据的分布。在机器学习的实践中,尤其是在使用神经网络进行分类任务时,通常通过最小化交叉熵损失来实现最大似然估计的目标。这种关系说明了为什么交叉熵损失在训练分类器时如此有效,因为它直接对应于统计意义上的最优参数估计。

最大似然与交叉熵的互相推导

从最大似然到交叉熵
  1. 最大似然函数: 对于数据集( {x^{(1)}, x^{(2)}, ..., x^{(n)}} )和模型参数( \theta ),似然函数是这些数据在模型参数下出现的联合概率: ( L(\theta) = \prod_{i=1}^{n} P(x^{(i)}|\theta) )。

  2. 对数似然: 为了简化乘法运算,通常取对数得到对数似然函数: ( \log L(\theta) = \sum_{i=1}^{n} \log P(x^{(i)}|\theta) )。

  3. 最大化对数似然: 最大似然估计的目标是找到参数( \theta ),使得对数似然函数最大。

  4. 交叉熵损失: 在二分类问题中,如果将( P(x^{(i)}|\theta) )视为模型对第( i )个样本为正类的预测概率( q_\theta(y=1|x^{(i)}) ),真实标签( y^{(i)} )是一个one-hot编码的向量,那么对数似然可以写为: ( \sum_{i=1}^{n} [y^{(i)} \log q_\theta(y=1|x^{(i)}) + (1 - y^{(i)}) \log (1 - q_\theta(y=1|x^{(i)}))] )。

  5. 推导交叉熵: 由于最大化对数似然等价于最小化其负值,上式即为交叉熵损失函数,表示为: ( H(y, q_\theta) = -\sum_{i=1}^{n} [y^{(i)} \log q_\theta(y=1|x^{(i)}) + (1 - y^{(i)}) \log (1 - q_\theta(y=1|x^{(i)}))] )。

从交叉熵到最大似然
  1. 交叉熵定义: 对于真实概率分布( p )和模型预测分布( q ),交叉熵为: ( H(p, q) = -\sum_x p(x) \log q(x) )。

  2. 损失函数: 在机器学习中,交叉熵常用作损失函数,目标是最小化( H(p, q) )。

  3. 最小化交叉熵: 最小化交叉熵损失函数等价于最大化其负值,即最大化( \sum_x p(x) \log q(x) ),这与最大化对数似然函数是一致的。

  4. 最大似然推导: 假定( q )是模型对数据的条件概率估计,即( q(x) = P(x|\theta) ),最小化交叉熵即为最大化数据在模型中出现概率的对数,这正是最大似然估计的目标。

结论

最大似然估计和交叉熵损失可以互相推导。在机器学习中,最小化交叉熵损失函数本质上是在对模型参数进行最大似然估计。这种推导展示了两者在数学上的等价性,解释了为什么交叉熵在作为损失函数时能够有效地指导模型的学习过程。

  • 16
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
极大似然估计和交叉熵之间存在密切的关系。在机器学习中,交叉熵通常被用作损失函数,用于衡量模型输出与真实标签之间的差异。下面我将简要介绍极大似然估计与交叉熵推导过程。 假设我们有一组观测数据 {x₁, x₂, ..., xₙ},这些数据是独立同分布的样本,我们希望用一个参数化的模型来描述这些数据。假设模型的参数为 θ,我们的目标是找到一个使得观测数据出现的概率最大化的参数值。 使用极大似然估计的思想,我们可以将观测数据出现的概率表示为一个关于参数 θ 的函数 L(θ),即似然函数。我们的目标是最大化似然函数 L(θ)。 在分类问题中,我们常常使用概率分布来描述模型输出的结果,比如使用 softmax 函数将模型输出转化为概率分布。假设我们有 K 个类别,模型输出的概率分布为 p(y=k|x; θ),其中 y 是真实标签。 那么对于观测数据 {x₁, x₂, ..., xₙ},它们的联合概率可以表示为: P(y₁, y₂, ..., yₙ|x₁, x₂, ..., xₙ; θ) = Πᵢ p(y=yᵢ|x=xᵢ; θ) 我们可以将这个联合概率视为一个关于参数 θ 的函数,记为 L(θ)。为了方便计算,我们可以取对数转换,得到对数似然函数: log L(θ) = Σᵢ log p(y=yᵢ|x=xᵢ; θ) 最大化对数似然函数等价于最小化其相反数的平均值。因此,我们可以定义交叉熵损失函数作为目标函数: J(θ) = -1/n Σᵢ log p(y=yᵢ|x=xᵢ; θ) 可以看出,交叉熵损失函数是对数似然函数的相反数的平均值。通过最小化交叉熵损失函数,我们实际上是在最大化观测数据出现的概率。 总结起来,极大似然估计和交叉熵之间推导过程是将观测数据的联合概率转换为对数似然函数,再通过最小化相反数的平均值得到交叉熵损失函数。交叉熵损失函数在训练机器学习模型中被广泛使用,特别是在分类问题中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

samoyan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值