层次Softmax相关论文整理

从1992年至2017年,层次Softmax在神经网络多分类问题中扮演重要角色,通过构建层次结构降低Softmax计算复杂度。发展历程包括基于词类的N-gram模型、最大熵语言模型加速、层次神经网络语言模型、基于词频分簇的层次Softmax、Huffman编码树及自适应Softmax模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Softmax函数是逻辑函数的一种推广,广泛应用于神经网络的多分类问题中,然而其计算复杂度与类别大小呈线性关系,在应用于语言模型、机器翻译时会带来高额的计算量,故而不少研究尝试寻找其高效的近似方法,层次Softmax便是其中一种常用的方法,本小节中将介绍层次Softmax中的一些代表模型。

  • 1992年,Brown等人在论文《Class-based n-gram models of natural language》提出基于词类的N-gram语言模型,认为单词间存在语义或语法的相似性,故而提出可根据单词的共现信息对单词进行分类。在语言模型中根据上下文预测中心词时,先根据N-gram方法由上下文的类别预测中心词所属类别的概率,再根据类别预测中心词的的概率,中心词的预测概率便表示为两者的乘积。计算单词类别概率后再计算类中单词的概率便是层次Softmax思想的起源。
  • 2001年,Goodman等人在论《Classes for fast maximum entropy training》提出使用词类技术加速最大熵语言模型,因为最大熵语言模型需要使用Softmax函数进行归一化,故而计算量是最大熵的模型的重要局限。文中通过两个最大熵模型对语言模型进行建模,第一个最大熵模型根据上下文预测中心词的所在类别,第二个最大熵模型根据上下文和中心词的类别预测中心词。在第二个最大熵模型中,因为已知单词类别,故而缩小了需要经过Softmax计算的单词个数。该论文的提出的模型是神经网络中层次Softmax模型的雏形,并已经作为Softmax的近似加速算法进行使用。
  • 2005年,Morin等人在论文《Hierarchical probabilistic neural network language model》中首次提出层次神经网络语言模型,根据WordNet中单词的相似关系,将单词构造成二叉树的层次结构,每个单词表示为二叉树叶节点,用一个比特向量表示单词位置。在预测中心词概率的过程中,每次预测比特向量中某个维度为0或1的概率,单词的预测概率便表示为所有维度概率的积,从而将计算复杂度为K的Softmax层降至$\frac{K}{\log K}$,实验表明其速度得到了得到了极大的提升,但是模型效果不理想,困惑度显著上升。
  • 2011年,Mikolov等人在论文《Extensions of recurrent neural network language model》中提出根据以词频的分布将词汇表分成不同的簇【也是当前主要构造层次Softmax的方法】,将单词以词频排序,然后按词频的顺序将其分到每个簇中,保证每个簇的词频总和近似相等。其结果表明基于词频分簇的层次Softmax在带来加速的同时只造成困惑度的轻微上升。Mikolov在其2012年的博士毕业论文《Statistical language models based on neural networks》中表明分簇时使簇中的词频开方后的和近似相等能进一步提升模型效果。自此之后的层次Softmax研究大多都是基于频率进行划分层次的
  • 2013年,Mikolov等人在论文《Efficient Estimation of Word Representations in Vector Space》【这篇文章也是大家所熟知的Word2Vec模型】提出根据词频将单词构造成Huffman编码树,与Morin等人在论文《《Hierarchical probabilistic neural network language model》的工作相似,使用一个比特向量表示单词在二叉树的位置,不过在Huffman编码树中,词频越高的单词其比特向量维度越低,从而进一步降低计算复杂度。
  • 2017年,Grave等人在论文《Efficient softmax approximation for GPUs》提出自适应Softmax模型,其是一种在GPU上高效运行的层次Softmax模型。因GPU计算较低维度的矩阵乘法时,维度大小几乎不影响计算时间,为了充分利用GPU的并行计算,其提出一个两层的基于词频分簇的层次Softmax,将词频最高的簇与其余簇的类别置于第一层,其余簇置于第二层;并且其认为可以降低词频较低的簇的词向量维度,因其难以学好无需浪费过多的计算。
### 层次Softmax的概念 层次Softmax是一种用于加速分类任务中概率估计的方法,尤其适用于类别数量庞大的场景。传统Softmax计算所有类别的概率分布时会涉及大量的指数运算和求和操作,在大规模数据集上的效率较低。相比之下,层次Softmax采用树形结构来表示各个类别之间的关系,从而减少每次预测所需的计算量[^1]。 对于给定的一个样本,通过遍历这棵树直到叶子节点位置即可得到最终所属类别对应的路径上各分支的概率乘积作为输出结果。这种方法不仅降低了时间复杂度还提高了收敛速度。 ```python import torch.nn as nn class HierarchicalSoftmax(nn.Module): def __init__(self, n_classes, n_hidden): super(HierarchicalSoftmax, self).__init__() # 构建二叉树并初始化权重矩阵W pass def forward(self, x, target=None): # 实现前向传播过程中的分层softmax逻辑 pass ``` ### 负采样的概念 负采样则是另一种简化多标签或多分类问题的技术,特别是在处理稀疏矩阵时非常有效。它的工作原理是从实际不存在关联的目标集合里随机抽取一部分作为假阴性实例参与训练,而不是像常规做法那样考虑所有的可能组合。这样做的好处是可以显著减小损失函数的空间维度,进而加快模型的学习速率[^2]。 在实践中,通常会选择那些频率较高却未被选作正样本的项来进行负采样,因为这些项目更有可能成为混淆因素影响模型性能。此外,还可以根据具体应用场景调整抽样比例以达到最佳效果。 ```python from collections import Counter import numpy as np def negative_sampling(targets, vocab_size, sample_size=5): """执行负采样""" counts = list(Counter(targets).items()) freqs = {word: count ** (3/4) for word, count in counts} total_freq = sum(freqs.values()) neg_samples = [] while len(neg_samples) < sample_size: rand_word = np.random.randint(vocab_size) if rand_word not in targets and rand_word not in neg_samples: prob = freqs.get(rand_word, 0) / total_freq if np.random.rand() < prob: neg_samples.append(rand_word) return neg_samples ``` ### 应用场景 这两种技术广泛应用于自然语言处理领域内的词嵌入学习任务当中,比如Word2Vec模型就采用了上述两种机制之一——负采样来提升训练效率;而在某些特定情况下也会见到两者共同使用的案例,例如构建超大型词汇表下的文本分类器或是推荐系统等。另外,在涉及到海量类别识别的任务如商品检索、广告点击率预估等方面同样有着出色表现[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值