Query Rewrite —— 基于大模型的query扩展改写，HyDE 生成假设性答案（论文）

最新推荐文章于 2024-06-26 23:49:10 发布

水的精神

最新推荐文章于 2024-06-26 23:49:10 发布

阅读量1k

点赞数 6

分类专栏： ES搜索优化 RAG 文章标签： query Rewrite 查询改写模型改写query HyDE 模型生成假设性答案

本文链接：https://blog.csdn.net/star1210644725/article/details/136214124

版权

ES搜索优化同时被 2 个专栏收录

43 篇文章 12 订阅

订阅专栏

RAG

40 篇文章 9 订阅

订阅专栏

通常用户的query是无法预测的。给定一个候选集，直接命中和query最相关的文档是一件困难的事情。这篇论文中，提出了HyDE，也就是根据query，利用LLM去生成假设性回答。然后将给出的假设性回答，去做文本的embedding，然后做向量检索召回。论文中证明，HyDE这种方式相比较BM25可以有效提升10%的召回率和准确性。

论文：Precise Zero-Shot Dense Retrieval without Relevance Labels

一、HyDE如何做，流程

如下图所示，很简单，就是拿原始query，喂个模型，生成一个假设性的答案，然后拿着假设性答案去做搜索，而不是用原始的query做搜索。最后召回的结果，即使最终的答案。注意论文中的检索是用密集向量检索，并非是BM25！

二、效果如何？

如何下图所示，在DL19和 DL20这两个测试数据集上的效果来看，HyDE 比BM25提升了10%

测试数据集 DL19和 DL20说明

We consider web search query sets
TREC DL19 (Craswell et al., 2020a) and
DL20 (Craswell et al., 2020b); they are based on
the MS-MARCO dataset (Bajaj et al., 2016). We
also use a diverse collection of 6 low-resource
datasets from the BEIR dataset (Thakur et al.,
2021). For non-English retrieval, we consider
Swahili, Korean, Japanese, and Bengali from the
Mr.Tydi dataset (Zhang et al., 2021).

三、弊端

LLM的幻觉问题，模型可能会生成错误的答案。

水的精神

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Query Rewrite —— 基于大模型的query扩展改写，HyDE 生成假设性答案（论文）

通常用户的query是无法预测的。给定一个候选集，直接命中和query最相关的文档是一件困难的事情。这篇论文中，提出了HyDE，也就是根据query，利用LLM去生成假设性回答。然后将给出的假设性回答，去做文本的embedding，然后做向量检索召回。论文中证明，HyDE这种方式相比较BM25可以。
复制链接

扫一扫