[破解查询分析中的高基数分类难题：实用技术与最佳实践]-CSDN博客

本文链接：https://blog.csdn.net/hshahtjtbh/article/details/144407336

# 破解查询分析中的高基数分类难题：实用技术与最佳实践

在进行查询分析时，我们常常需要根据分类列创建过滤器。其中的一个挑战在于，你通常需要指定**确切的**分类值。然而，当有效值数量较多时，这个问题就变得更加复杂。

## 引言

在进行数据查询分析的过程中，高基数分类列可能带来挑战。尤其是在处理需要精确识别和过滤特定分类值的情境下，这种挑战尤为突出。本文将探讨如何有效处理这些高基数分类问题，并提供实用的代码示例来指导你实现这一目标。

## 如何应对高基数分类问题

### 高基数的挑战

- **上下文限制**：在上下文窗口有限的大语言模型（LLM）中，列出所有可能值可能会导致超出上下文限制。
- **识别准确性**：随着有效值的增加，LLM对特定值的聚焦能力可能下降。

### 解决方案

#### 增大上下文窗口

一种策略是使用更大的上下文窗口或模型版本。然而，这并不能确保模型准确识别所有可能的分类值。

```python
from langchain_openai import ChatOpenAI

llm_long = ChatOpenAI(model="gpt-4-turbo-preview", temperature=0)
# 使用API代理服务提高访问稳定性

使用向量索引

通过创建向量索引，筛选出与查询最相关的N个值，并将其传递给模型。这种方法可以提高模型的准确性。

from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
# 使用API代理服务提高访问稳定性
vectorstore = Chroma.from_texts(names, embeddings, collection_name="author_names")

def select_names(question):
    _docs = vectorstore.similarity_search(question, k=10)
    _names = [d.page_content for d in _docs]
    return ", ".join(_names)

结果过滤与校正

允许LLM初步填充值，然后使用后处理步骤将其修正为有效的分类值。

from langchain_core.pydantic_v1 import validator

class Search(BaseModel):
    query: str
    author: str

    @validator("author")
    def correct_author(cls, v: str) -> str:
        return vectorstore.similarity_search(v, k=1)[0].page_content

代码示例

以下是完整的代码示例，展示了如何实现上述解决方案：

from langchain_core.pydantic_v1 import BaseModel, Field, validator
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
from faker import Faker

fake = Faker()
names = [fake.name() for _ in range(10000)]

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_texts(names, embeddings, collection_name="author_names")

class Search(BaseModel):
    query: str
    author: str

    @validator("author")
    def correct_author(cls, v: str) -> str:
        return vectorstore.similarity_search(v, k=1)[0].page_content

system = """Generate a relevant search query for a library system"""
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system),
        ("human", "{question}"),
    ]
)

llm = ChatOpenAI(model="gpt-3.5-turbo-0125", temperature=0)
corrective_structure_llm = llm.with_structured_output(Search)
corrective_query_analyzer = (
    {"question": RunnablePassthrough()} | prompt | corrective_structure_llm
)

result = corrective_query_analyzer.invoke("what are books about aliens by jes knight")
print(result)

常见问题和解决方案

模型上下文限制：考虑使用分批处理技术或向量索引以减少上下文占用。
分类值偏差：在分类值校正步骤中，确保所选索引足够准确。

总结与进一步学习资源

本文介绍了如何处理查询分析中的高基数分类问题。通过使用增大上下文窗口、创建向量索引及后处理校正等策略，你可以有效提升LLM在高基数场景下的表现。

参考资料

OpenAI API 文档
LangChain与LangChroma库文档

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！


---END---