处理高基数分类变量进行查询分析的有效方法
在数据分析中,尤其是查询分析中,处理大量类别的数据是一项挑战。当需要在查询中指定确切的分类值时,尤其如此。本文将探讨如何使用先进的语言模型(LLM)处理这些高基数分类问题,并提供一些实用的解决方案。
引言
高基数分类变量常常具有数百甚至数千个可能值。在查询分析中,明确地指定这些值对分析的准确性至关重要。然而,当分类值过多时,它们可能无法适应语言模型的上下文窗口。因此,我们需要一些策略来有效地处理这些情况。
主要内容
1. 生成假数据
我们首先生成一些假数据来模拟问题。
from faker import Faker
fake = Faker()
names = [fake.name() for _ in range(10000)]
2. 查询分析的基本设置
我们利用 langchain
与 OpenAI 的 API 进行查询分析。
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI
class Search(BaseModel):
query: str
author: str
system = """Generate a relevant search query for a library system"""
prompt = ChatPromptTemplate.from_messages(
[
("system", system),
("human", "{question}"),
]
)
llm = ChatOpenAI(model="gpt-3.5-turbo-0125", temperature=0)
structured_llm = llm.with_structured_output(Search)
query_analyzer = {"question": RunnablePassthrough()} | prompt | structured_llm
3. 问题与解决方案
在向模型提供所有可能的分类值时,常常会遇到上下文长度限制的问题。例如:
system = """Generate a relevant search query for a library system.
`author` attribute MUST be one of:
{authors}
Do NOT hallucinate author name!"""
base_prompt = ChatPromptTemplate.from_messages(
[
("system", system),
("human", "{question}"),
]
)
prompt = base_prompt.partial(authors=", ".join(names))
query_analyzer_all = {"question": RunnablePassthrough()} | prompt | structured_llm
try:
res = query_analyzer_all.invoke("what are books about aliens by jess knight")
except Exception as e:
print(e)
此时,模型可能会因信息过多而无法正确处理。
4. 创建索引并检索相关值
我们可以创建一个向量索引以提高检索效率:
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_texts(names, embeddings, collection_name="author_names")
def select_names(question):
_docs = vectorstore.similarity_search(question, k=10)
_names = [d.page_content for d in _docs]
return ", ".join(_names)
create_prompt = {
"question": RunnablePassthrough(),
"authors": select_names,
} | base_prompt
query_analyzer_select = create_prompt | structured_llm
5. 后期选择替换
我们还可以先让 LLM 填充任何值,然后将其替换为有效值:
from langchain_core.pydantic_v1 import validator
class Search(BaseModel):
query: str
author: str
@validator("author")
def validate_author(cls, v: str) -> str:
return vectorstore.similarity_search(v, k=1)[0].page_content
corrective_structure_llm = llm.with_structured_output(Search)
corrective_query_analyzer = (
{"question": RunnablePassthrough()} | prompt | corrective_structure_llm
)
corrective_query_analyzer.invoke("what are books about aliens by jes knight")
常见问题和解决方案
- 上下文长度限制:通过创建索引并检索相关值,减少上下文信息量。
- 拼写错误:使用后期验证器进行纠正。
总结和进一步学习资源
处理高基数分类数据需要综合使用多种技术。通过索引和纠正机制,可以在保持准确性的同时限制上下文长度。想要了解更多,可以参考以下资源:
参考资料
- LangChain Documentation
- OpenAI API Documentation
结束语:如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
—END—