论文链接:https://aclanthology.org/2021.emnlp-main.78.pdf
Ultra-High Dimensional Sparse Representations with Binarization for Efficient Text Retrieval
Abstract
神经模型因为效率问题,其dense representations只适合在重排序过程。
符号或潜在形式的sparse representations使用倒排索引更加有效。
本文提出了一种具有直接可控稀疏性的超高维(UHD)表示方案。 UHD 的大容量和最小的维度间噪声和干扰允许二值化表示,这对于存储和搜索非常有效。还提出了一种分桶方法,
使用 MS MARCO 和 TREC CAR数据集。
Introduction
dense representations的固有属性:low dimensional and dense 。
所有维度都必须参与表示单词、查询和文档,这是低效的。因此,为维度建立倒排索引是没有意义的。
本文提出了neural firs-stage ranker,缓解了dense neural IR的缺点。
Winner-Take-All (WTA) model:
本质上是一个线性层,它只保留 top-k 激活并将其他激活设置为零。
选择 WTA 是因为可以通过显式设置参数 k 来精确控制输出的稀疏性。
Overall Architecture
整体结构如图所示,q和d各有一个结构一直且共享参数的V层的encoder,每一层输出各个token的dense representations;随后每一层使用WTA生成每个token的sparse representations;利用non-interfering aggregation获取每个Bucket表示(即该层的整体表示,每个bucket表示q或者d的某个aspect);随后对每层的bucket两两点积计算,求和之后通过margin loss计算损失。
Encoder structure如下所示:
Overall Effectiveness
虽然效果不如Dense Embedding Approaches,但是在Sparse Representation Approaches的方法中,MRR,Recall和MAP指标上结果较好。
UHD的效率主要取决于:n(WTA的维数)和K(非0维数),文章中还对n和k进行了进一步分析。