除了稀疏稠密检索，第三层检索来了！推理信息检索让RAG真正理解你在问什么！

最新推荐文章于 2025-05-29 16:31:56 发布

AI大模型-小涂

最新推荐文章于 2025-05-29 16:31:56 发布

阅读量904

点赞数 15

文章标签：人工智能 AI大模型大模型入门大模型学习 RAG 大模型 LLM

本文链接：https://blog.csdn.net/Gaga246/article/details/148231163

版权

前言

最近看到一个很有意思的研究，说的是信息检索的三个层次：

Level 1: 关键词检索- 匹配相同的词
Level 2: 语义检索- 理解词的含义
Level 3: 推理检索- 需要逻辑思考才能找到答案

今天就跟大家聊聊这个"推理检索"到底是什么鬼，以及最新的一些进展。

什么是推理信息检索？

简单来说，推理信息检索就是需要动脑子思考才能找到相关信息的能力，而不是简单地匹配关键词或者理解语义。

举个例子，假设我问：

“家里给植物浇水后，盘子里的积水可以重复使用吗？对植物有害吗？”

一个真正能推理的检索系统会明白：

盘子里的水含有溶解的矿物质
这些可能包括肥料中的可溶性盐分
需要找关于盐分积累和根部损伤的文档
即使这些文档从来没提过"重复使用盘子里的水"这个说法

这就是推理检索的厉害之处 - 它能理解问题背后的逻辑，而不只是字面意思。

现有检索可能失败？

最近有个叫BRIGHT的基准测试，专门用来测试这种推理检索能力。测试结果让人大跌眼镜：

在MTEB排行榜上拿59分的顶级模型
在BRIGHT上只能拿18分
这差距也太大了吧！

这说明什么？现在的检索系统在面对需要推理的复杂问题时，基本上是一头雾水。

来自论文：https://arxiv.org/pdf/2407.12883

新的救星：Reason-ModernColBERT

就在最近，LightOn团队发布了Reason-ModernColBERT模型，在BRIGHT基准测试上取得了不错的成绩。虽然只有1.5亿参数，但效果相当不错。

实际测试效果如何？

笔者拿了三个文档来测试：

文档1（高度相关）：讲可溶性盐分的危害

容器植物中的可溶性盐分会在水分蒸发后积累，重复使用排水会让盐分浓度升高，
难以让植物吸收水分。高盐分会直接损伤根部，导致叶尖发黄、萎蔫等问题。
最好的做法是倒掉托盘里的水，不要重复使用。

文档2（不相关但有迷惑性）：讲节水园艺

节水园艺对可持续发展很重要。包括覆盖减少蒸发、选择耐旱植物、
收集雨水等技术。滴灌系统能直接给根部供水，减少浪费。
这些方法能减少50%的用水量。

文档3（有些相关）：基础浇水指南

大多数室内植物在土壤表面干燥时需要浇水。
要彻底浇透直到底部排水孔流出水，然后30分钟后倒掉托盘积水防止烂根。
不同植物需求不同，多肉需要少水，热带植物喜欢土壤保持湿润。

测试结果

使用原始问题查询：

文档1（最相关）：得分 -82.11
文档3（有些相关）：得分 -78.09
文档2（不相关）：得分 -69.92

排序完全正确！即使文档2里"水"这个词出现了很多次，但模型还是能准确识别出真正相关的文档。

加上推理过程效果更好

如果在查询中加上推理过程：

用户想知道重复使用植物排水是否安全。
关键问题是理解水通过土壤后会发生什么。
可能含有溶解的矿物质和肥料中的盐分。
需要找关于矿物质积累、盐浓度对植物影响的信息...

结果得分差距更大：

文档1：-97.82（相关性更高）
文档3：-83.31
文档2：-79.71

技术实现细节

Reason-ModernColBERT使用了多向量架构，每个文档不是用单一向量表示，而是用多个向量的集合。这样能更好地捕捉文档的不同方面。

在Weaviate中的使用也很简单：

reasoning = """
The user wants to know if reusing plant drainage water is safe.
The key issue is understanding what happens to water after it passes through soil.
It likely contains dissolved minerals and salts from fertilizers.
We need to find information about mineral buildup, salt concentration effects on plants, and whether reused water can harm plant roots through excessive salt accumulation.
"""

将推理过程和查询问题拼接，完整代码可以查看：

https://github.com/weaviate/recipes/blob/main/weaviate-features/multi-vector/reason_moderncolbert.ipynb
response = collection.query.near_vector(
    near_vector=model.encode((query + reasoning), is_query=True),  # Raw embedding, in [[e11, e12, e13, ...], [e21, e22, e23, ...], ...] shape
    target_vector="multi_vector",
    return_metadata=weaviate.classes.query.MetadataQuery(
            distance=True,
        ),
)

for result in response.objects:
    print(result.properties)
    print(result.metadata.distance)