【论文】UHD-BERT：高效文本检索的超高维稀疏表示

Elffffffff

已于 2022-09-24 11:03:58 修改

阅读量524

点赞数

文章标签：自然语言处理

于 2022-04-13 11:49:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/elf1110/article/details/124004906

版权

论文链接：https://aclanthology.org/2021.emnlp-main.78.pdf

Ultra-High Dimensional Sparse Representations with Binarization for Efficient Text Retrieval

Abstract

神经模型因为效率问题，其dense representations只适合在重排序过程。

符号或潜在形式的sparse representations使用倒排索引更加有效。

本文提出了一种具有直接可控稀疏性的超高维（UHD）表示方案。 UHD 的大容量和最小的维度间噪声和干扰允许二值化表示，这对于存储和搜索非常有效。还提出了一种分桶方法，

使用 MS MARCO 和 TREC CAR数据集。

Introduction

dense representations的固有属性：low dimensional and dense 。

所有维度都必须参与表示单词、查询和文档，这是低效的。因此，为维度建立倒排索引是没有意义的。

本文提出了neural firs-stage ranker，缓解了dense neural IR的缺点。

Winner-Take-All (WTA) model：

本质上是一个线性层，它只保留 top-k 激活并将其他激活设置为零。

选择 WTA 是因为可以通过显式设置参数 k 来精确控制输出的稀疏性。

Overall Architecture

整体结构如图所示，q和d各有一个结构一直且共享参数的V层的encoder，每一层输出各个token的dense representations；随后每一层使用WTA生成每个token的sparse representations；利用non-interfering aggregation获取每个Bucket表示（即该层的整体表示，每个bucket表示q或者d的某个aspect）；随后对每层的bucket两两点积计算，求和之后通过margin loss计算损失。

Encoder structure如下所示：

Overall Effectiveness

虽然效果不如Dense Embedding Approaches，但是在Sparse Representation Approaches的方法中，MRR,Recall和MAP指标上结果较好。

UHD的效率主要取决于：n(WTA的维数)和K（非0维数），文章中还对n和k进行了进一步分析。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文】UHD-BERT：高效文本检索的超高维稀疏表示

论文链接：https://aclanthology.org/2021.emnlp-main.78.pdfUltra-High Dimensional Sparse Representations with Binarization for Efficient Text RetrievalAbstract神经模型因为效率问题，其dense representations只适合在重排序过程。符号或潜在形式的sparse representations使用倒排索引更加有效。本文提出了一..
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。