【论文】UHD-BERT:高效文本检索的超高维稀疏表示

论文链接:https://aclanthology.org/2021.emnlp-main.78.pdf

Ultra-High Dimensional Sparse Representations with Binarization for Efficient Text Retrieval

Abstract

神经模型因为效率问题,其dense representations只适合在重排序过程。

符号或潜在形式的sparse representations使用倒排索引更加有效。

本文提出了一种具有直接可控稀疏性的超高维(UHD)表示方案。 UHD 的大容量和最小的维度间噪声和干扰允许二值化表示,这对于存储和搜索非常有效。还提出了一种分桶方法,

使用 MS MARCO 和 TREC CAR数据集。

Introduction

dense representations的固有属性:low dimensional  and dense 。

所有维度都必须参与表示单词、查询和文档,这是低效的。因此,为维度建立倒排索引是没有意义的。

本文提出了neural firs-stage ranker,缓解了dense neural IR的缺点

Winner-Take-All (WTA) model:

本质上是一个线性层,它只保留 top-k 激活并将其他激活设置为零。

选择 WTA 是因为可以通过显式设置参数 k 来精确控制输出的稀疏性。

 Overall Architecture

整体结构如图所示,q和d各有一个结构一直且共享参数的V层的encoder,每一层输出各个token的dense representations;随后每一层使用WTA生成每个token的sparse representations;利用non-interfering aggregation获取每个Bucket表示(即该层的整体表示,每个bucket表示q或者d的某个aspect);随后对每层的bucket两两点积计算,求和之后通过margin loss计算损失。

 Encoder structure如下所示:

Overall Effectiveness

 

 虽然效果不如Dense Embedding Approaches,但是在Sparse Representation Approaches的方法中,MRR,Recall和MAP指标上结果较好。

UHD的效率主要取决于:n(WTA的维数)和K(非0维数),文章中还对n和k进行了进一步分析。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值