Sampled Softmax训练方法数学原理思考以及代码实现

最新推荐文章于 2023-09-28 16:36:57 发布

XiangJiaoJun_

最新推荐文章于 2023-09-28 16:36:57 发布

阅读量1.0k

点赞数 3

文章标签：深度学习算法机器学习

本文链接：https://blog.csdn.net/XiangJiaoJun_/article/details/106365367

版权

本文深入探讨Sampled Softmax的数学原理，通过采样减少大规模分类问题中的计算量。讲解了logits与softmax的关系，采样类别子集的概率表示，以及采样后类别子集与原始概率分布的关系。文章还分析了Tensorflow中的采样策略，并指出理解背后数学原理对算法应用的重要性。

摘要由CSDN通过智能技术生成

前言

前面两篇关于文本匹配的博客中，都用到了Sampled-softmax训练方法来加速训练，Sampled-softmax简单点来说，就是通过采样，来减少我们训练计算loss时输出层的运算量。从第一篇博客中的不知其然，到后面看到DSSM代码中Sampled softamax的知其然，这篇博客目的是在知其所以然，从Sampled softmax的数学原理思考，为什么DSSM中的训练代码可以这样写，代码还能怎么改进。

这段时间也一直在思考，如何才能不随波逐流，如何才能成为一名独当一面的算法工程师，我想对于一个问题的浅尝辄止肯定是远远不够的，不仅要知其然还要知其所以然，光是读懂这几篇论文是不够的，进一步的要理解代码工程实现，更进一步，去理解代码背后的数学原理，为什么代码这样做一定能保证结果正确或者收敛，了解了这些，我们才能够根据自己的想法去做优化，我想对于现在日益成熟的深度学习，难的可能不是如何实现，而是对于自己的实际场景去调整优化。

上面有点扯远了，回归正题，这篇博客主要基于Tensorflow官方对于Sampled softmax文档，建议大家有问题不懂的时候多看官方文档，写的非常通俗易懂，下面我就说说自己对Sampled Softmax数学原理的理解。

What is Candidate Sampling Tensorflow 官方文档

什么是Sampled Softmax

1、logits与softmax

当我们做分类问题时，假设我们需要分类的类别数为 $∣ L ∣$ ，那么我们做法通常如下，假设我们的输入为 $x$ ：

神经网络最后一层输出层神经元个数为 $∣ L ∣$ ,每个神经元输出分别表示各个类别的logits, 这里的 logits 其实代表的就是各个类别未经归一化的概率分布（也就是加起来不为1）,网络就是学习出一个映射 $f_{\theta}(x) = logits$
将上述输出的logits作为softmax的输入进行归一化操作，softmax的输出则是表示各个类别上的概率分布
根据这个概率分布计算损失函数，如交叉熵损失

还是采用之前博客中的Query-Doc Softmax作为说明，从logtis进行softmax归一化公式如下：

$\bold q,\bold d$ 表示我们的输入， $f_{\theta}(*)$ 表示我们的模型， $f_{\theta}(\bold q,\bold d)$ 即是给定 $\bold q$ 情况下，输出类别为 $\bold d$ 的logits
我们注意分母中 $\mathcal D$ 即为所有文档集合，也就是我们的总类别数 $∣ L ∣$

这个公式的具体解释可以参考之前的两篇博客，下面分析一下上面这个公式，下面是重点：

当我们类别数非常大时，也就是 $\mathcal D$ 非常大时，那么我们分母的计算量就会非常大，因为需要在整个类别全集上求和。比如假设我们有100W个文档，那么如果我们不做任何处理，对于每个Query，分母中我们就要计算对这100W个文档的logits，然后求和进行归一化，这样的训练速度我们是不能接受的。Sampled Softmax思想就是，从全部类别集合 $\mathcal D$ 中采样出一个子集，比如100个，然后在子集上计算logits并进行softmax归一化
我们如果对每个类别logits加上一个与类别无关的常数，结果将不会变化。这个很好理解，当我们对每个logits均加上同一个常数K，那么分子分母可以约去这个常数K,结果不变
分母其实是一个归一化因子，如果看过PRML同学应该熟悉，有点类似于指数族分布中的partition function，分母与类别无关，因为分母中对整个类别集合进行了求和，给定输入后，分母归一化因子也就确定了。

从上面分析可以知道，我们的关键词是logits、softmax归一化。logits本质上就是未归一化的概率，softmax目的就是计算归一化因子(分母)，对logtis进行归一化，从而得到一个概率分布。问题就在于需要对整个类别集合 $\mathcal D$ 计算logtis并求和，当类别集合比较大时（比如上面的Query-Doc预测，以及语言模型训练），计算量会非常大。

2、Sampled Softmax

Sampled Softmax的核心思想就在于 Sampled，既然类别全集太大，那么能不能采样一个类别子集，然后在计算在子集上的logtis然后进行softmax归一化呢？假设我们类别全集为 $L$ ，输入为 $x,T_i)$ ，其中 $T_i$ 就是我们的输入类别标签，那么我们可以在 $L$ 上随机采样一个子集 $S_i \subset L$ ，并且与我们的输入类别 $T_i$ ，共同组成候选类别子集 $C_i$
$C_i = T_i \cup S_i$

我们在训练模型时，只要在这个采样出来的 $C_i$ 上计算logits和softmax就可以了，大大减少了计算量，加快训练过程。现在问题是：

当我们进行采样之后，各个类别logits应该如何计算，和使用类别全集时的logtis有什么对应关系？

Sampled Softmax背后的数学原理

从上面可以看出，当我们进行采样后，按理来说logtis计算方法也需要改变，这样才能最后得到正确的概率分布。前方公式预警！！！！

1、数学符号约定

$x,{t_i})$ 表示我们的一个训练样本, $x$ 为输入模型的特征, $t_i$ 为标签，目标类别
$P (y ∣ x)$ 给定输入 $x$ ，输出类别为 $y$ 的条件概率
$F (x, y)$ 给定输入

最低0.47元/天解锁文章

XiangJiaoJun_

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Sampled Softmax训练方法数学原理思考以及代码实现

文章目录前言前言基于表征(Representation)形式的文本匹配、信息检索、向量召回的方法总结（用于召回、或者粗排）文本匹配开山之作-DSSM论文笔记及源码阅读（类似于sampled softmax训练方式思考）前面两篇关于文本匹配的博客中，都用到了Sampled-softmax训练方法来加速训练，Sampled-softmax简单点来说，就是通过采样，来减少我们训练计算loss时输出层的运算量。从第一篇博客中的不知其然，到后面看到DSSM代码中Sampled softamax的知其然，这
复制链接

扫一扫