开启RAG进阶：混合检索（关键字&向量）+重排序（原理讲解与示例体验）

最新推荐文章于 2025-04-03 00:00:00 发布

大模型教程

最新推荐文章于 2025-04-03 00:00:00 发布

阅读量2.3k

点赞数 12

文章标签： flask python 后端人工智能 AI大模型大模型语言模型

本文链接：https://blog.csdn.net/2401_84204207/article/details/141436914

版权

前言

我们也了解了关键字检索和向量检索在实际的应用中，有各自的特点和局限性。

2023年9月，Microsoft Azure AI 在官方博客上发布了一篇题为《Azure 认知搜索：通过混合检索和排序能力超越向量搜索》的文章。该文对在 RAG 架构的生成式 AI 应用中引入混合检索和重排序技术进行了全面的实验数据评估，量化了该技术组合对改善文档召回率和准确性方面的显著效果。

一张图表快速回顾关键字检索和向量检索的特点

检索方式	特点	局限性
关键字检索	1.领域外搜索：无论单词的含义如何，单词只是单词。
2.边输入边搜索：检索速度快。
3.确切短语匹配：对产品名、人名、零件编号等特别有用。	关键字检索可能会受到一些问题的影响，例如同义词、拼写错误等，这可能会导致一些相关的文档被漏掉或者一些不相关的文档被检索到。
向量检索	除了能够实现复杂语义的文本查找，还有其他优势：
1.容错性：处理模糊描述、拼写错误；
2.多模态理解：支持文本、图像、音视频等相似匹配；
3.多语言理解：跨语言理解，如输入中文匹配英文；相似语义理解；	在某些情况下，呈现的效果不佳，比如：
1.搜索一个人或物体的名字（例如，伊隆·马斯克，iPhone 15）
2.搜索缩写词或短语（例如，RAG，RLHF）
3.搜索 ID（例如， gpt-3.5-turbo ， titan-xlarge-v1.01 ）

从我们汇总的信息可以比较直观的看出，我们本文要专题分享混合检索的原因了。

什么是混合检索？

接下来我们就先来了解下到底什么是混合检索，可能从我们以上综合提到了两个检索方式，也已经能推断出来了。

没错，在RAG系统中，混合搜索最常见指向量检索和关键词检索的组合。在不同场景中，实际应用会有不同方式，从概念上讲：混合检索是结合了两种或者多种搜索算法提高搜索结果相关性的搜索技术。

混合检索的原理

关于关键字检索和向量检索，还有另外一种表述：

关键字检索（稀疏表示）、向量检索（稠密表示）。

基于关键字的搜索和向量搜索都返回一组单独的结果，通常是按计算的相关性排序的搜索结果列表。必须将这些单独的搜索结果集组合在一起。

有许多不同的策略可以将两个列表的排名结果合并为一个单一的排名，一般来说，搜索结果通常是首先评分的。这些分数可以根据指定的指标（例如余弦距离）计算，也可以仅根据搜索结果列表中的排名进行计算。

然后，计算出的分数用一个参数进行加权，该参数决定了每个算法的权重并影响结果的重新排名。

通常，alpha 取一个介于 0 和 1 之间的值，其中

alpha = 1：纯向量搜索

alpha = 0：纯关键字搜索

下面，您可以看到关键字和向量搜索之间融合的最小示例，其中包含基于排名和 .alpha = 0.5

我们用一个小例子加深下体验

基于关键字检索的排序

import time

class MyEsConnector:
    def __init__(self, es_client, index_name, keyword_fn):
        self.es_client = es_client
        self.index_name = index_name
        self.keyword_fn = keyword_fn

    def add_documents(self, documents):
        '''文档灌库'''
        if self.es_client.indices.exists(index=self.index_name):
            self.es_client.indices.delete(index=self.index_name)
        self.es_client.indices.create(index=self.index_name)
        actions = [
            {
                "_index": self.index_name,
                "_source": {
                    "keywords": self.keyword_fn(doc),
                    "text": doc,
                    "id": f"doc_{i}"
                }
            }
            for i, doc in enumerate(documents)
        ]
        helpers.bulk(self.es_client, actions)
        time.sleep(1)

    def search(self, query_string, top_n=3):
        '''检索'''
        search_query = {
            "match": {
                "keywords": self.keyword_fn(query_string)
            }
        }
        res = self.es_client.search(
            index=self.index_name, query=search_query, size=top_n)
        return {
            hit["_source"]["id"]: {
                "text": hit["_source"]["text"],
                "rank": i,
            }
            for i, hit in enumerate(res["hits"]["hits"])
        }
        
        from chinese_utils import to_keywords  # 使用中文的关键字提取函数

# 引入配置文件
ELASTICSEARCH_BASE_URL = os.getenv('ELASTICSEARCH_BASE_URL')
ELASTICSEARCH_PASSWORD = os.getenv('ELASTICSEARCH_PASSWORD')
ELASTICSEARCH_NAME= os.getenv('ELASTICSEARCH_NAME')

es = Elasticsearch(
    hosts=[ELASTICSEARCH_BASE_URL],  # 服务地址与端口
    http_auth=(ELASTICSEARCH_NAME, ELASTICSEARCH_PASSWORD),  # 用户名，密码
)

# 创建 ES 连接器
es_connector = MyEsConnector(es, "demo_es_rrf", to_keywords)

# 文档灌库
es_connector.add_documents(documents)

# 关键字检索
keyword_search_results = es_connector.search(query, 3)

print(json.dumps(keyword_search_results, indent=4, ensure_ascii=False))

基于向量检索的排序

# 创建向量数据库连接器
vecdb_connector = MyVectorDBConnector("demo_vec_rrf", get_embeddings)

# 文档灌库
vecdb_connector.add_documents(documents)

# 向量检索
vector_search_results = {
    "doc_"+str(documents.index(doc)): {
        "text": doc,
        "rank": i
    }
    for i, doc in enumerate(
        vecdb_connector.search(query, 3)["documents"][0]
    )
}  # 把结果转成跟上面关键字检索结果一样的格式

print(json.dumps(vector_search_results, indent=4, ensure_ascii=False))

基于 RRF 的融合排序

def rrf(ranks, k=1):
    ret = {}
    # 遍历每次的排序结果
    for rank in ranks:
        # 遍历排序中每个元素
        for id, val in rank.items():
            if id not in ret:
                ret[id] = {"score": 0, "text": val["text"]}
            # 计算 RRF 得分
            ret[id]["score"] += 1.0/(k+val["rank"])
    # 按 RRF 得分排序，并返回
    return dict(sorted(ret.items(), key=lambda item: item[1]["score"], reverse=True))
    
    import json

# 融合两次检索的排序结果
reranked = rrf([keyword_search_results, vector_search_results])

print(json.dumps(reranked, indent=4, ensure_ascii=False))

我们看下各自的执行结果

# 背景说明：在医学中“小细胞肺癌”和“非小细胞肺癌”是两种不同的癌症

query = "非小细胞肺癌的患者"

documents = [
    "玛丽患有肺癌，癌细胞已转移",
    "刘某肺癌I期",
    "张某经诊断为非小细胞肺癌III期",
    "小细胞肺癌是肺癌的一种"
]

query_vec = get_embeddings([query])[0]
doc_vecs = get_embeddings(documents)

print("Cosine distance:")
for vec in doc_vecs:
    print(cos_sim(query_vec, vec))

{
    "doc_2": {
        "text": "张某经诊断为非小细胞肺癌III期",
        "rank": 0
    },
    "doc_0": {
        "text": "玛丽患有肺癌，癌细胞已转移",
        "rank": 1
    },
    "doc_3": {
        "text": "小细胞肺癌是肺癌的一种",
        "rank": 2
    }
}

{
    "doc_3": {
        "text": "小细胞肺癌是肺癌的一种",
        "rank": 0
    },
    "doc_2": {
        "text": "张某经诊断为非小细胞肺癌III期",
        "rank": 1
    },
    "doc_0": {
        "text": "玛丽患有肺癌，癌细胞已转移",
        "rank": 2
    }
}

{
    "doc_2": {
        "score": 1.5,
        "text": "张某经诊断为非小细胞肺癌III期"
    },
    "doc_3": {
        "score": 1.3333333333333333,
        "text": "小细胞肺癌是肺癌的一种"
    },
    "doc_0": {
        "score": 0.8333333333333333,
        "text": "玛丽患有肺癌，癌细胞已转移"
    }
}

我们可以看到混合检索的效果是最好的。