手搓GPT系列之 - Logistic Regression模型，Softmax模型的损失函数与CrossEntropyLoss的关系

马尔科夫司机

已于 2023-06-10 23:46:27 修改

阅读量871

点赞数

分类专栏： nlp 文章标签： nlp python 人工智能算法自然语言处理

于 2023-04-15 11:51:46 首次发布

本文链接：https://blog.csdn.net/marlinlm/article/details/130167585

版权

nlp 专栏收录该内容

13 篇文章 4 订阅

订阅专栏

文章探讨了LogisticRegression和Softmax模型的目标函数与PyTorch中的CrossEntropyLoss之间的关系。CrossEntropyLoss实际上是这两个模型损失函数的通用化表达，适用于多分类情况。文中通过公式推导说明了LR模型和Softmax模型的损失函数如何转化为交叉熵形式，并指出交叉熵在处理标签不唯一情况的能力。

摘要由CSDN通过智能技术生成

笔者在学习各种分类模型和损失函数的时候发现了一个问题，类似于Logistic Regression模型和Softmax模型，目标函数都是根据最大似然公式推出来的，但是在使用pytorch进行编码的时候，却发现根本就没有提供softmax之类的损失函数，而提供了CrossEntropyLoss，MSELoss之类的。本文将介绍我们在学习LR模型和Softmax模型的时候接触到的目标函数，与实际应用中的经常用到的CrossEntropyLoss函数之间的关系。

弄懂了这个关系之后，笔者突然发现以前的一篇介绍LR模型和softmax模型基础的文章里存在一个十分傻的bug。本着线上有bug偷偷改，文章有bug坚决不改，不但不改还要四处宣扬的游街示众要不然怎么记得住的原则，笔者打算让那个bug保留在文章里，请各位朋友到评论区帮笔者找找这个bug吧。出bug的文章在这里：浅谈线性回归与softmax分类器。

1. 交叉熵函数（Cross Entropy）

对于一个训练样本集，我们可以把损失函数理解为一个关于训练数据的模型输出 $a$ ，与该样本的标签 $\dot{a}$ 的函数，标记为 $L(a,\dot{a})$ ，该函数用于计算所有训练样本的 $a$ 值和 $\dot{a}$ 值之间的关系，当 $a$ 值和 $\dot{a}$ 值越接近， $L(a,\dot{a})$ 越小，反之 $L(a,\dot{a})$ 值越大。很多情况下，交叉熵公式（Cross Entropy）是一个很好的选择。这里写出交叉熵公式：
$CrossEntropy(a,\dot{a})=- \sum\dot{a} \cdot log(a)$
交叉熵函数的图像为：
在这里插入图片描述
可以看到，当预测结果与实际结果越相符时，交叉熵越低；否则交叉熵会快速飙高以达到一个较大的惩罚。有人可能会有疑问：这如何解释LR模型和softmax模型的损失函数呢？

2. LR模型损失函数与CrossEntropy的关系

我们把LR模型的损失函数贴一下：
$-\frac1n\sum_{i=1}^n (q(x_i) \log p(x_i)+(1-q(x_i)) \log (1-p(x_i)))$
提取出核心的部分：
$-(q(x_i) \log p(x_i)+(1-q(x_i)) \log (1-p(x_i)) \tag{1})$

设：该LR模型的标签集为 ${True,False\}$ ，我们用 $q (T r u e ∣ x)$ 和 $q (F a l se ∣ x)$ 表示样本数据 $x$ 的实际标签数据。当 $x$ 的标签取 $T r u e$ 时， $q (T r u e ∣ x) = 1, q (F a l se ∣ x) = 0$ ；当 $x$ 的标签取 $F a l se$ 时， $q (T r u e ∣ x) = 0, q (F a l se ∣ x) = 1$ 。式子 $(1)$ 可以改写为：
$-(q(True|x_i) \log p(True|x_i)+q(False|x_i) \log p(False|x_i)) = - \sum_{y=True}^{False}q(y|x)\log(p(y|x))$
这个式子是交叉熵公式在二分类场景下的形式。因此这个LR模型的损失公式，其实是关于预测值与标签值之间的交叉熵公式。

3. softmax模型的损失函数与CrossEntropy的关系

同样贴下softmax的损失函数：
$-\frac1n \sum_{i=1}^n \log \frac{\exp(w_y^Tx_i)}{\sum_c \exp(w_c^Tx_i)}$

上边这个函数是建立在一个前提上，即：测试数据集中所有数据的分类标签都是确定到一个具体分类。假设我们的标签集为 $C=\{c_1,c_2,...,c_k\}$ ，一共有k个分类，那么针对测试集中的样本数据 $x$ ，其标签数据 $y$ 为一个k维独热向量。也就是说，不允许有标签表示某个测试数据 $x$ 有一半可能属于 $c_1$ ，另一半可能属于 $c_2$ 。
我们把这个公式的关键部分提取一下：
$-\sum \log \frac{\exp(w_y^Tx_i)}{\sum_c \exp(w_c^Tx_i)} \tag{2}$
由于：
$\frac{\exp(w_y^Tx_i)}{\sum_c \exp(w_c^Tx_i)} = p(y|x_i)$
用 $p(y|x_i)$ 替换可得：
$-\sum \log p(y|x_i) \tag{3}$
已知 $y\in C$ ，设 $y=c_k$ ，则式 $(3)$ 可以扩写为
$-\sum (0 \cdot \log p(c_1|x_i) + 0 \cdot \log p(c_2|x_i) + \cdots + 0 \cdot \log p(c_{k-1}|x_i ) + 1 \cdot \log p(y|x_i ))$
上式可以写成交叉熵公式的形式：
$-\sum_{j=1}^{k} q(y|x_i) \cdot \log p(y|x_i)$

4. 结论

CrossEntropy函数就是我们在学习LR模型和Softmax模型的时候经常遇到的目标函数的更加通用化的表示。不仅适用于多分类场景，也使用于训练数据的标签不唯一的情况，也就是某个训练数据 $x$ 的标签有50%的可能性为 $c_1$ ，也有50%的可能性为 $c_2$ 的情况。

马尔科夫司机

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
手搓GPT系列之 - Logistic Regression模型，Softmax模型的损失函数与CrossEntropyLoss的关系

笔者在学习各种分类模型和损失函数的时候发现了一个问题，类似于Logistic Regression模型和Softmax模型，目标函数都是根据最大似然公式推出来的，但是在使用pytorch进行编码的时候，却发现根本就没有提供softmax之类的损失函数，而提供了CrossEntropyLoss，MSELoss之类的。本文将介绍我们在学习LR模型和Softmax模型的时候接触到的目标函数，与实际应用中的经常用到的CrossEntropyLoss函数之间的关系。
复制链接

扫一扫

专栏目录