探索自查询检索器：提高AI应用的智能度

最新推荐文章于 2024-10-17 17:26:49 发布

llzwxh888

最新推荐文章于 2024-10-17 17:26:49 发布

阅读量379

点赞数 5

文章标签：人工智能 python

本文链接：https://blog.csdn.net/ppoojjj/article/details/142325366

版权

引言

在AI和编程领域，信息检索是一个至关重要的环节。随着数据的不断累积，如何快速、准确地获取所需信息成为一种挑战。本篇文章将介绍一种创新的检索方式——自查询检索器（Self-Querying Retriever）。我们将探讨其工作原理、实现方法，并提供代码示例帮助您上手。

主要内容

自查询检索器是什么？

自查询检索器能够自动解析自然语言查询，将其转化为结构化查询，并应用于其底层的矢量存储（VectorStore）。这种方法不仅可以利用用户输入的查询进行语义相似度比较，还可以从中提取元数据过滤条件，提高检索的精确性。

构建自查询检索器

环境准备

首先，确保安装必要的软件包：

%pip install --upgrade --quiet lark langchain-chroma

创建矢量存储

我们将使用Chroma矢量存储，并创建一个包含电影摘要的小型数据集。

from langchain_chroma import Chroma
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings

docs = [
    Document(
        page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose",
        metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"},
    ),
    # 其他文档...
]

vectorstore = Chroma.from_documents(docs, OpenAIEmbeddings())

创建自查询检索器

接下来，实现检索器。需要指定文档支持的元数据字段及其描述。

from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import ChatOpenAI

metadata_field_info = [
    AttributeInfo(name="genre", description="The genre of the movie.", type="string"),
    # 其他字段...
]

document_content_description = "Brief summary of a movie"
llm = ChatOpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(
    llm, vectorstore, document_content_description, metadata_field_info
)

代码示例：自查询检索器的应用

以下是几个示例，展示如何使用检索器：

# 使用API代理服务提高访问稳定性
retriever.invoke("I want to watch a movie rated higher than 8.5")
retriever.invoke("Has Greta Gerwig directed any movies about women")