处理高基数分类变量进行查询分析的有效方法

tt_jishu

于 2024-10-09 17:12:01 发布

阅读量123

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/tt_jishu/article/details/142791684

版权

处理高基数分类变量进行查询分析的有效方法

在数据分析中，尤其是查询分析中，处理大量类别的数据是一项挑战。当需要在查询中指定确切的分类值时，尤其如此。本文将探讨如何使用先进的语言模型（LLM）处理这些高基数分类问题，并提供一些实用的解决方案。

引言

高基数分类变量常常具有数百甚至数千个可能值。在查询分析中，明确地指定这些值对分析的准确性至关重要。然而，当分类值过多时，它们可能无法适应语言模型的上下文窗口。因此，我们需要一些策略来有效地处理这些情况。

主要内容

1. 生成假数据

我们首先生成一些假数据来模拟问题。

from faker import Faker

fake = Faker()

names = [fake.name() for _ in range(10000)]

2. 查询分析的基本设置

我们利用 langchain 与 OpenAI 的 API 进行查询分析。

from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI

class Search(BaseModel):
    query: str
    author: str

system = """Generate a relevant search query for a library system"""
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system),
        ("human", "{question}"),
    ]
)
llm = ChatOpenAI(model="gpt-3.5-turbo-0125", temperature=0)
structured_llm = llm.with_structured_output(Search)
query_analyzer = {"question": RunnablePassthrough()} | prompt | structured_llm

3. 问题与解决方案

在向模型提供所有可能的分类值时，常常会遇到上下文长度限制的问题。例如：

system = """Generate a relevant search query for a library system.

`author` attribute MUST be one of:

{authors}

Do NOT hallucinate author name!"""
base_prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system),
        ("human", "{question}"),
    ]
)
prompt = base_prompt.partial(authors=", ".join(names))

query_analyzer_all = {"question": RunnablePassthrough()} | prompt | structured_llm

try:
    res = query_analyzer_all.invoke("what are books about aliens by jess knight")
except Exception as e:
    print(e)

此时，模型可能会因信息过多而无法正确处理。

4. 创建索引并检索相关值

我们可以创建一个向量索引以提高检索效率：

from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_texts(names, embeddings, collection_name="author_names")

def select_names(question):
    _docs = vectorstore.similarity_search(question, k=10)
    _names = [d.page_content for d in _docs]
    return ", ".join(_names)

create_prompt = {
    "question": RunnablePassthrough(),
    "authors": select_names,
} | base_prompt

query_analyzer_select = create_prompt | structured_llm

5. 后期选择替换

我们还可以先让 LLM 填充任何值，然后将其替换为有效值：

from langchain_core.pydantic_v1 import validator

class Search(BaseModel):
    query: str
    author: str

    @validator("author")
    def validate_author(cls, v: str) -> str:
        return vectorstore.similarity_search(v, k=1)[0].page_content

corrective_structure_llm = llm.with_structured_output(Search)
corrective_query_analyzer = (
    {"question": RunnablePassthrough()} | prompt | corrective_structure_llm
)

corrective_query_analyzer.invoke("what are books about aliens by jes knight")