【2024大语言模型必知】做RAG时为什么要使用滑动窗口?句子窗口检索(Sentence Window Retrieval)是什么?

目录

1. 传统的向量检索方法,使用整个文档检索,为什么不行?

2.句子滑动窗口检索(Sentence Window Retrieval)工作原理

3.句子滑动窗口检索(Sentence Window Retrieval)的优点


1. 传统的向量检索方法,使用整个文档检索,为什么不行?

在传统的向量检索方法中,我们将整个文档作为单个文本块进行索引和检索。但这可能会导致一些问题:

  1. 上下文丢失:对于较长的文档,将整个文档作为一个向量可能会导致上下文信息的丢失。因为不同部分的内容可能涉及不同的主题或语境。

  2. 检索粒度较粗:检索到的是整个文档,而不是具体与查询相关的片段。这可能会给生成模块带来额外的负担,因为它需要从较长的文本中识别出真正相关的部分。

2.句子滑动窗口检索(Sentence Window Retrieval)工作原理

引入句子滑动窗口检索(Sentence Window Retrieval)可以解决这些问题。其工作原理是:

  1. 将文档分割成多个滑动的段落窗口(overlapping sentence windows),每个窗口包含几个连续的句子。

  2. 为每个句子窗口创建向量嵌入,并将它们索引到向量数据库中。

  3. 在查询时,首先检索与查询最相关的句子窗口,而不是整个文档。

  4. 将这些相关句子窗口作为上下文,送入生成模型进行问答。

3.句子滑动窗口检索(Sentence Window Retrieval)的优点
  1. 上下文保留:句子窗口能够较好地保留局部语义和上下文信息。

  2. 更精确的检索:检索的是与查询更加相关的文本片段,而不是整个文档。这有助于提高检索的准确性。

  3. 降低生成负担:生成模型只需关注较短的相关片段,而不是处理整个长文档,从而降低了计算开销。

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值