论文:Precise Zero-Shot Dense Retrieval without Relevance Labels
⭐⭐⭐⭐
CMU, ACL 2023, arXiv:2212.10496
Code: github.com/texttron/hyde
论文速读
在以往的 dense retrieval 思路中,需要对 input query 做 encode 来得到 vector,并于 passages 的 vector 做相似度计算实现检索。这里面的 dense encoder 需要把有相关性的 query 和 docs 映射到相近的位置,这就存在两个缺点:
- dense encoder 需要大量的数据去 learn
- Hard to generalize when definition of relevance changes
但在现实世界中:
- 可以用于 train 的具有相关性关联的 data 并不多
- 检索的需求是多种多样的:
- 不同的企业或机构有不同的需求
- 用户的需求也在随着时间发生改变
这就导致了以往的 dense retrieval 的思路并不好用。
本文提出的 HyDE 的思路如下:

论文提出HyDE方法,利用LLM生成伪文档,通过无监督学习的密集编码器进行检索,无需相关性标签。适用于早期搜索系统部署,随着数据积累可进一步优化。
最低0.47元/天 解锁文章
2223

被折叠的 条评论
为什么被折叠?



