【IR 论文】Query2doc — 使用 LLM 做 Query Expansion 来提高信息检索能力

yubinCloud

已于 2024-04-23 21:07:43 修改

阅读量3k

点赞数 20

分类专栏： LLM Research 文章标签：自然语言处理人工智能语言模型算法 RAG

于 2024-04-23 20:03:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45668004/article/details/138133086

版权

论文：Query2doc: Query Expansion with Large Language Models
⭐⭐⭐⭐⭐
Microsoft Research, EMNLP 2023

文章目录

背景介绍

信息检索（Information Retrieval，IR）指的是，给定一个 user query，从一个 large corpus 中定位出相关的文档。

目前信息检索有两个主流的范式：

Lexical-based sparse retrieval（基于词汇的稀疏检索）：是一类经典的 IR 方法，它依赖于文本的词汇内容和它们的统计特性。这种方法的核心是将文档和查询表示为词汇的集合，然后通过计算这些集合之间的相似度来检索文档。其中最著名的稀疏检索模型是 BM25，它使用词频（term frequency, TF）和逆文档频率（inverse document frequency, IDF）来评估查询词与文档的匹配程度。这类方法简单高效且计算效率搞，但检索效果很大程度上依赖于 query 与 doc 中词汇的匹配程度。
Embedding-based dense retrieval（基于 embedding 的稠密检索）：是一种较为现代的信息检索方法。这种方法将文本转为 embedding 向量，这种 embedding 能够捕捉到词汇和短语的语义信息，并通过计算向量之间的距离（如余弦相似度）来检索相关文档。这类方法能够捕捉到词汇之间的语义关系，但更需要更多的计算资源。

尽管经典的 BM25 在很多场景下表现不如基于 embedding 的方法，但 BM25 在跨领域的场景下表现还是很不错的。

Query Expansion 是 IR 领域中的一项关键技术，旨在改善查询与文档之间的匹配度，从而提高检索系统的准确性和相关性。Query Expansion 的基本思想是，通过某些方法对用户原始查询进行扩展，添加额外的词汇或短语，以更好地捕捉用户的检索意图。Query Expansion 的挑战在于选择与用户意图高度相关的词汇，同时避免引入噪声或不相关的信息。有效的 Query Expansion 可以显著提高检索系统的性能，尤其是在处理短查询或模糊查询时。然而，不恰当的扩展可能会降低检索质量，因此 Query Expansion 策略的选择和优化是 IR 中的一个活跃研究方向。

Query2doc 论文速读

论文采用的思路很简单，但效果却很不错。

Query2doc 图示

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。