关于word2vec中多分类（Softmax）和二分类（Sigmoid）模型的交叉熵损失函数等价的思考

最新推荐文章于 2024-08-19 21:58:17 发布

Wilhelm_M

最新推荐文章于 2024-08-19 21:58:17 发布

阅读量166

点赞数

分类专栏：自然语言处理随笔文章标签：深度学习自然语言处理神经网络 word2vec

本文链接：https://blog.csdn.net/Wilhelm_M/article/details/133383764

版权

自然语言处理随笔专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章讨论了在深度学习的自然语言处理中，多分类Softmax和二分类Sigmoid模型的交叉熵损失函数虽然形式不同，但它们在反向传播过程中产生的梯度相同，导致训练过程等价。作者通过比较两种模型的反向传播机制来解释这一现象。

摘要由CSDN通过智能技术生成

《深度学习进阶：自然语言处理》P143，word2vec的改进章节中说，对多分类和二分类模型的交叉熵损失函数是等价的。为什么？

个人理解，其实这里作者说的等价并不是两个交叉熵损失函数的值是等价的：

$L = -\sum_{k}t_{k}\cdot lny_{k}$ （多分类Softmax）

$L = -(t\cdot lny + (1-t)\cdot ln(1-y))$ （二分类Sigmoid）

而是说两个损失函数的反向传播 $\frac{\partial L}{\partial x}$ 是等价的。只要两个模型的反向传播相同，那么对于相同的输入神经元，每次学习（更新参数）的梯度相同，两个模型的训练过程即是完全相同的，因此两模型等价。

由第一章神经网络背景知识我们可以知道，Softmax方法中的反向传播 $\frac{\partial L}{\partial x} = y_{k} - t_{k}$ （详见本书第一章及《深度学习入门：基于 Python 的理论与实现》的附录 A）。而对于二分类模型：

$\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x}$

而 $\frac{\partial L}{\partial y} = -\frac{t}{y} + \frac{1 - t}{1 - y}$ ， $\frac{\partial y}{\partial x} = \frac{\partial }{\partial x} (\frac{1}{1 + e^{-x}}) = \frac{e^{-x}}{(1 + e^{-x})^{2}} = y\cdot (1 - y)$

因此 $\frac{\partial L}{\partial x} = (-\frac{t}{y} + \frac{1 - t}{1 - y}) \cdot y \cdot (1 - y) = y - t$

可见，二分类模型对于每个选定的神经元x，其反向传播与多分类模型是相同的，因此可以说两个模型是等价的。

第一次发随笔记录一个很简单的问题，望多指教。

Wilhelm_M

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
关于word2vec中多分类（Softmax）和二分类（Sigmoid）模型的交叉熵损失函数等价的思考

只要两个模型的反向传播相同，那么对于相同的输入神经元，每次学习（更新参数）的梯度相同，两个模型的训练过程即是完全相同的，因此两模型等价。《深度学习进阶：自然语言处理》P143，word2vec的改进章节中说，对多分类和二分类模型的交叉熵损失函数是等价的。可见，二分类模型对于每个选定的神经元x，其反向传播与多分类模型是相同的，因此可以说两个模型是等价的。（详见本书第一章及《深度学习入门：基于 Python 的理论与实现》的附录 A）。由第一章神经网络背景知识我们可以知道，Softmax方法中的反向传播。
复制链接

扫一扫