层次Softmax相关论文整理

最新推荐文章于 2025-03-18 20:52:36 发布

SYSU_BOND

最新推荐文章于 2025-03-18 20:52:36 发布

阅读量5.4k

点赞数 6

分类专栏：自然语言处理论文阅读

本文链接：https://blog.csdn.net/SYSU_BOND/article/details/100831274

版权

论文阅读同时被 2 个专栏收录

12 篇文章

订阅专栏

自然语言处理

11 篇文章

订阅专栏

从1992年至2017年，层次Softmax在神经网络多分类问题中扮演重要角色，通过构建层次结构降低Softmax计算复杂度。发展历程包括基于词类的N-gram模型、最大熵语言模型加速、层次神经网络语言模型、基于词频分簇的层次Softmax、Huffman编码树及自适应Softmax模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Softmax函数是逻辑函数的一种推广，广泛应用于神经网络的多分类问题中，然而其计算复杂度与类别大小呈线性关系，在应用于语言模型、机器翻译时会带来高额的计算量，故而不少研究尝试寻找其高效的近似方法，层次Softmax便是其中一种常用的方法，本小节中将介绍层次Softmax中的一些代表模型。

1992年，Brown等人在论文《Class-based n-gram models of natural language》提出基于词类的N-gram语言模型，认为单词间存在语义或语法的相似性，故而提出可根据单词的共现信息对单词进行分类。在语言模型中根据上下文预测中心词时，先根据N-gram方法由上下文的类别预测中心词所属类别的概率，再根据类别预测中心词的的概率，中心词的预测概率便表示为两者的乘积。计算单词类别概率后再计算类中单词的概率便是层次Softmax思想的起源。
2001年，Goodman等人在论《Classes for fast maximum entropy training》提出使用词类技术加速最大熵语言模型，因为最大熵语言模型需要使用Softmax函数进行归一化，故而计算量是最大熵的模型的重要局限。文中通过两个最大熵模型对语言模型进行建模，第一个最大熵模型根据上下文预测中心词的所在类别，第二个最大熵模型根据上下文和中心词的类别预测中心词。在第二个最大熵模型中，因为已知单词类别，故而缩小了需要经过Softmax计算的单词个数。该论文的提出的模型是神经网络中层次Softmax模型的雏形，并已经作为Softmax的近似加速算法进行使用。
2005年，Morin等人在论文《Hierarchical probabilistic neural network language model》中首次提出层次神经网络语言模型，根据WordNet中单词的相似关系，将单词构造成二叉树的层次结构，每个单词表示为二叉树叶节点，用一个比特向量表示单词位置。在预测中心词概率的过程中，每次预测比特向量中某个维度为0或1的概率，单词的预测概率便表示为所有维度概率的积，从而将计算复杂度为K的Softmax层降至$\frac{K}{\log K}$，实验表明其速度得到了得到了极大的提升，但是模型效果不理想，困惑度显著上升。
2011年，Mikolov等人在论文《Extensions of recurrent neural network language model》中提出根据以词频的分布将词汇表分成不同的簇【也是当前主要构造层次Softmax的方法】，将单词以词频排序，然后按词频的顺序将其分到每个簇中，保证每个簇的词频总和近似相等。其结果表明基于词频分簇的层次Softmax在带来加速的同时只造成困惑度的轻微上升。Mikolov在其2012年的博士毕业论文《Statistical language models based on neural networks》中表明分簇时使簇中的词频开方后的和近似相等能进一步提升模型效果。自此之后的层次Softmax研究大多都是基于频率进行划分层次的。
2013年，Mikolov等人在论文《Efficient Estimation of Word Representations in Vector Space》【这篇文章也是大家所熟知的Word2Vec模型】提出根据词频将单词构造成Huffman编码树，与Morin等人在论文《《Hierarchical probabilistic neural network language model》的工作相似，使用一个比特向量表示单词在二叉树的位置，不过在Huffman编码树中，词频越高的单词其比特向量维度越低，从而进一步降低计算复杂度。
2017年，Grave等人在论文《Efficient softmax approximation for GPUs》提出自适应Softmax模型，其是一种在GPU上高效运行的层次Softmax模型。因GPU计算较低维度的矩阵乘法时，维度大小几乎不影响计算时间，为了充分利用GPU的并行计算，其提出一个两层的基于词频分簇的层次Softmax，将词频最高的簇与其余簇的类别置于第一层，其余簇置于第二层；并且其认为可以降低词频较低的簇的词向量维度，因其难以学好无需浪费过多的计算。