基于LlamaIndex实现简单的混合搜索引擎

最新推荐文章于 2024-08-18 19:02:03 发布

qq_37836323

最新推荐文章于 2024-08-18 19:02:03 发布

阅读量366

点赞数 4

文章标签：搜索引擎 python

本文链接：https://blog.csdn.net/qq_29929123/article/details/140321521

版权

在这篇文章中，我们将展示如何使用LlamaIndex定义一个简单的混合搜索引擎，结合关键词查找检索和向量检索，实现“与”和“或”条件检索。

环境准备

如果你在使用Colab Notebook，请先安装LlamaIndex：

!pip install llama-index

接着，我们需要设置环境变量：

import os
os.environ["OPENAI_API_KEY"] = "你的API密钥"

下载数据

我们将下载Paul Graham的一篇文章作为示例数据：

!mkdir -p 'data/paul_graham/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'

加载数据

首先，将文档转换为节点，并插入DocumentStore：

from llama_index.core import SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader("./data/paul_graham").load_data()

from llama_index.core import Settings

nodes = Settings.node_parser.get_nodes_from_documents(documents)

from llama_index.core import StorageContext

# 初始化存储上下文（默认为内存中）
storage_context = StorageContext.from_defaults()
storage_context.docstore.add_documents(nodes)

定义向量索引和关键词表索引

在同一个DocumentStore上，我们分别建立向量索引和关键词索引：

from llama_index.core import SimpleKeywordTableIndex, VectorStoreIndex

vector_index = VectorStoreIndex(nodes, storage_context=storage_context)
keyword_index = SimpleKeywordTableIndex(nodes, storage_context=storage_context)

定义自定义检索器

我们定义一个自定义检索器类，实现关键词查找和语义搜索：

from llama_index.core import QueryBundle
from llama_index.core.schema import NodeWithScore
from llama_index.core.retrievers import (
    BaseRetriever,
    VectorIndexRetriever,
    KeywordTableSimpleRetriever,
)
from typing import List

class CustomRetriever(BaseRetriever):
    """实现语义搜索和混合搜索的自定义检索器。"""

    def __init__(
        self,
        vector_retriever: VectorIndexRetriever,
        keyword_retriever: KeywordTableSimpleRetriever,
        mode: str = "AND",
    ) -> None:
        """初始化参数。"""
        self._vector_retriever = vector_retriever
        self._keyword_retriever = keyword_retriever
        if mode not in ("AND", "OR"):
            raise ValueError("Invalid mode.")
        self._mode = mode
        super().__init__()

    def _retrieve(self, query_bundle: QueryBundle) -> List[NodeWithScore]:
        """根据查询检索节点。"""
        vector_nodes = self._vector_retriever.retrieve(query_bundle)
        keyword_nodes = self._keyword_retriever.retrieve(query_bundle)

        vector_ids = {n.node.node_id for n in vector_nodes}
        keyword_ids = {n.node.node_id for n in keyword_nodes}

        combined_dict = {n.node.node_id: n for n in vector_nodes}
        combined_dict.update({n.node.node_id: n for n in keyword_nodes})

        if self._mode == "AND":
            retrieve_ids = vector_ids.intersection(keyword_ids)
        else:
            retrieve_ids = vector_ids.union(keyword_ids)

        retrieve_nodes = [combined_dict[rid] for rid in retrieve_ids]
        return retrieve_nodes

插件检索器到查询引擎中并运行查询

最后，我们将检索器插件到查询引擎中，并运行一些查询：

from llama_index.core import get_response_synthesizer
from llama_index.core.query_engine import RetrieverQueryEngine

# 定义自定义检索器
vector_retriever = VectorIndexRetriever(index=vector_index, similarity_top_k=2)
keyword_retriever = KeywordTableSimpleRetriever(index=keyword_index)
custom_retriever = CustomRetriever(vector_retriever, keyword_retriever)

# 定义响应综合器
response_synthesizer = get_response_synthesizer()

# 组装查询引擎
custom_query_engine = RetrieverQueryEngine(
    retriever=custom_retriever,
    response_synthesizer=response_synthesizer,
)

# 向量查询引擎
vector_query_engine = RetrieverQueryEngine(
    retriever=vector_retriever,
    response_synthesizer=response_synthesizer,
)
# 关键词查询引擎
keyword_query_engine = RetrieverQueryEngine(
    retriever=keyword_retriever,
    response_synthesizer=response_synthesizer,
)

response = custom_query_engine.query("What did the author do during his time at YC?")
print(response)

可能遇到的错误

API Key错误：如果你未能正确设置API Key，可能会遇到认证错误。请确保你已正确设置os.environ["OPENAI_API_KEY"]。
网络问题：下载数据或访问API时可能会遇到网络问题。请检查网络连接并重试。
数据加载问题：如果数据路径错误或数据格式不正确，可能会导致加载失败。请确保路径和格式正确。

如果你觉得这篇文章对你有帮助，请点赞，关注我的博客，谢谢!

参考资料: