最大似然与交叉熵之间的关系以及互相推导过程

samoyan

已于 2024-01-03 16:55:28 修改

阅读量716

点赞数 16

分类专栏： NLP 文章标签：机器学习人工智能

于 2024-01-03 16:51:44 首次发布

本文链接：https://blog.csdn.net/baoyan2015/article/details/135367822

版权

NLP 专栏收录该内容

36 篇文章 1 订阅

订阅专栏

最大似然与交叉熵之间的关系

最大似然估计（Maximum Likelihood Estimation, MLE）和交叉熵（Cross-Entropy, CE）是机器学习中两个密切相关的概念，尤其是在分类问题和神经网络的训练中。

最大似然估计（MLE）

核心思想: 最大似然估计是一种在给定数据下估计模型参数的方法。它选择参数值使得观测数据出现的概率最大。
数学表达: 对于数据集( {x^{(1)}, x^{(2)}, ..., x^{(n)}} )和参数( \theta )，似然函数为( L(\theta) = P(x^{(1)}, x^{(2)}, ..., x^{(n)}|\theta) )。通常使用对数似然( \log L(\theta) )来简化计算。

交叉熵（CE）

定义: 交叉熵是衡量两个概率分布( p )和( q )之间差异的指标。在机器学习中，( p )通常代表真实分布，而( q )代表模型预测的分布。
计算公式: 交叉熵定义为( H(p, q) = -\sum p(x) \log q(x) )，其中求和遍历所有可能的事件。

最大似然估计

定义: 最大似然估计是一种参数估计方法。在给定数据集的情况下，它寻找能够使数据出现概率（即似然函数）最大化的参数值。
计算: 似然函数通常定义为所有数据点出现概率的乘积。在实践中，为了避免数值下溢和方便求导，通常对似然函数取对数，得到对数似然函数。

交叉熵

定义: 交叉熵是衡量两个概率分布之间差异的指标。在分类问题中，它常用来衡量模型预测的概率分布与真实标签的概率分布之间的差异。
计算: 对于二分类问题，交叉熵可以用下面的公式计算：

⁡H(p,q)=−∑p(x)logq(x)

其中( p(x) )是真实分布，( q(x) )是预测分布。在多分类问题中，公式会相应扩展。

关系

等价性: 当使用对数似然函数作为目标函数时，最大化似然函数等价于最小化交叉熵。在分类问题中，模型的输出可以被视为预测概率分布，而真实的标签可以被视为真实概率分布。
损失函数: 在神经网络的分类任务中，交叉熵常被用作损失函数。如果将模型的输出解释为条件概率分布，那么最小化交叉熵损失函数就相当于最大化数据的对数似然。
联系: 最大似然估计提供了一个统计框架，而交叉熵提供了一个衡量预测准确性的具体方法。它们在形式上是等价的，因为最大化对数似然等同于最小化预测概率分布和真实概率分布之间的交叉熵。

结论

最大似然估计和交叉熵在本质上是相同的，它们都旨在找到最佳的参数，使得模型的预测尽可能接近真实数据的分布。在机器学习的实践中，尤其是在使用神经网络进行分类任务时，通常通过最小化交叉熵损失来实现最大似然估计的目标。这种关系说明了为什么交叉熵损失在训练分类器时如此有效，因为它直接对应于统计意义上的最优参数估计。

最大似然与交叉熵的互相推导

从最大似然到交叉熵

最大似然函数: 对于数据集( {x^{(1)}, x^{(2)}, ..., x^{(n)}} )和模型参数( \theta )，似然函数是这些数据在模型参数下出现的联合概率: ( L(\theta) = \prod_{i=1}^{n} P(x^{(i)}|\theta) )。
对数似然: 为了简化乘法运算，通常取对数得到对数似然函数: ( \log L(\theta) = \sum_{i=1}^{n} \log P(x^{(i)}|\theta) )。
最大化对数似然: 最大似然估计的目标是找到参数( \theta )，使得对数似然函数最大。
交叉熵损失: 在二分类问题中，如果将( P(x^{(i)}|\theta) )视为模型对第( i )个样本为正类的预测概率( q_\theta(y=1|x^{(i)}) )，真实标签( y^{(i)} )是一个one-hot编码的向量，那么对数似然可以写为: ( \sum_{i=1}^{n} [y^{(i)} \log q_\theta(y=1|x^{(i)}) + (1 - y^{(i)}) \log (1 - q_\theta(y=1|x^{(i)}))] )。
推导交叉熵: 由于最大化对数似然等价于最小化其负值，上式即为交叉熵损失函数，表示为: ( H(y, q_\theta) = -\sum_{i=1}^{n} [y^{(i)} \log q_\theta(y=1|x^{(i)}) + (1 - y^{(i)}) \log (1 - q_\theta(y=1|x^{(i)}))] )。

从交叉熵到最大似然

交叉熵定义: 对于真实概率分布( p )和模型预测分布( q )，交叉熵为: ( H(p, q) = -\sum_x p(x) \log q(x) )。
损失函数: 在机器学习中，交叉熵常用作损失函数，目标是最小化( H(p, q) )。
最小化交叉熵: 最小化交叉熵损失函数等价于最大化其负值，即最大化( \sum_x p(x) \log q(x) )，这与最大化对数似然函数是一致的。
最大似然推导: 假定( q )是模型对数据的条件概率估计，即( q(x) = P(x|\theta) )，最小化交叉熵即为最大化数据在模型中出现概率的对数，这正是最大似然估计的目标。