最大似然估计_交叉熵和最大似然估计

最新推荐文章于 2024-06-09 10:37:25 发布

weixin_39648469

最新推荐文章于 2024-06-09 10:37:25 发布

阅读量381

点赞数

文章标签：最大似然估计

本文链接：https://blog.csdn.net/weixin_39648469/article/details/111617539

版权

我们正在努力训练神经网络模型进行分类。我们设计网络深度，激活函数，设置所有超参数，然后选择损失函数。正如我们所说的，我们使用交叉熵损失函数，因为它适合于分类。

熵是随机变量不确定性的变量。如果我们有一个随机变量X，我们有概率质量函数p(X)= PR [ X = x ]，我们定义随机变量X的熵为H(X)

现在，我们怎样才能知道这个值H(X)对应X的不确定性？如果有一个x的概率为1。如果我们把它放在等式(1)中，我们得到

第二行中的第一项等于0乘以log(1)和第二项等于0乘以p(x_hat)因为p(x)的和应该是1。注意，我们使用0 log 0 = 0 ，x log x→0 =>x→0。因此，如果我们非常确定随机变量将有一个值，则意味着不确定性将非常低。这个概念在在Bernoulli分布中H(p)vs p的图中得到了很好的体现。

H( p)vs p

如果我们仔细研究随机变量熵的定义，我们可以会发现熵与随机变量的期望有关，我们可以写成：

所以随机变量的熵是随机变量log(1 / p(x))的期望值，其中X是从p(x)中得到的。注意，我们也可以用H(p)表示熵。

现在假设我们有一个未知的真实分布p(x)，我们已经建立了一个近似分布q(x)的模型，假设真实分布是q(x)，而不是p(x)的低效性可以用相对熵或Kullback-Leibler距离来测量。换句话说，相对熵是两个分布之间距离的度量。相对熵D(p||q)定义为

如果我们扩展log(p(x)/ q(x))，我们可以得到

右边的第二项是分布p(x)的熵，右边的第一项是交叉熵。我们可以看到交叉熵与相对熵密切相关，我们可以定义交叉熵，表示为H(p，q)为

这就是交叉熵，现在它是如何与模型损失相适应？

我们需要重新理解机器学习的一个核心原则，即最大似然估计(MLE)。假设对于一个问题，我们有一组示例Xexample = { x_1，x _2，...，x _m}，它们独立于真实但未知的分布pdata(x)绘制。然后我们以θ为参数并尝试用参数模型pmodel(x ;θ)模拟真实分布。我们可以说pmodel(x，θ)映射x以估计给定相同数据的真实但未知的pdata(x)。为了得到最好的模型，我们需要找到这样的θ即生成与pmodel(X，θ)最相似的结果pdata(x)。我们可以使用MLE原理来找到这样的θ，即通过对使用最大似然估计，其定义为