一文讲懂召回中的 NCE & NEG & sampled softmax loss

最新推荐文章于 2023-09-28 16:36:57 发布

眼罩的笔记

最新推荐文章于 2023-09-28 16:36:57 发布

阅读量2.4k

点赞数 3

分类专栏：推荐系统文章标签：大数据推荐算法逻辑回归

本文链接：https://blog.csdn.net/m0_62577727/article/details/125712774

版权

本文深入探讨了在深度学习中处理大量类别问题时，如何近似softmax操作，包括NCE（噪声对比估计）、Negative Sampling（负采样）和sampled softmax。NCE通过将多分类问题转化为二分类问题，NEG简化为双塔模型的点乘，而sampled softmax通过采样类别子集进行计算。每种方法都有其适用场景和优缺点，对于理解和优化大规模分类任务至关重要。

摘要由CSDN通过智能技术生成

深度学习中与分类相关的问题都会涉及到softmax的计算。当目标类别较少时，直接用标准的softmax公式进行计算没问题，当目标类别特别多时，则需采用估算近似的方法简化softmax中归一化的计算。

有很多讲解近似softmax 的文章，但都有一些细节上或者公式上的问题。今天这篇文章集百家所长，讲讲近似softmax的前世今生。

01 前提知识

1. logistic regression

逻辑回归的模型(函数/假设)为:

其中g为sigmoid函数，x为模型输入，θ为模型参数，hθ(x) 为模型预测正样本(类别为1)的概率。其对应的损失函数如下：

上述损失函数称为交叉熵损失，也叫log损失。通过优化算法(SGD/Adam)极小化该损失函数，可确定模型参数。

2. softmax loss

softmax回归的模型(函数/假设)为：

hθ表示第ii个样本输入x(i)x(i)属于各个类别的概率，且所有概率和为1。其对应的损失函数如下：

常将softmax + cross entropy loss称为softmax loss，softmax只是一个激活函数, 交叉熵才是损失函数, softmax loss其实是使用了softmax的交叉熵损失函数。

由上述softmax的假设函数可知，在学习阶段，每进行一个样本的类别估计都需要计算其属于各个类别的得分并归一化为概率值。当类别数特别大时，如语言模型中从海量词表中预测下一个词(词表中词即这里的类别)，用标准的softmax进行预测就会出现分母计算量过大。

Approximate Softmax所解决的就是Softmax中分母的计算量太大的问题。怎么近似，又有如下的NCE和Sampled Softmax两种方法。

02 NCE

简单的讲，NCE的思想是将extreme large softmax转化为若干个二分类问题。

NCE 的核心思想就是通过学习数据分布样本和噪声分布样本之间的区别，从而发现数据中的一些特性，因为这个方法需要依靠与噪声数据进行对比，所以称为“噪声对比估计（Noise Contrastive Estimation）”。更具体来说，NCE 将问题转换成了一个二分类问题，分类器能够对数据样本和噪声样本进行二分类，通过最大化同一个目标函数来估计模型参数。

以语言模型为例，利用NCE可将从词表中预测某个词的多分类问题，转为从噪音词中区分出目标词的二分类问题。具体如图所示：