[如何在SQL问答中处理大型数据库：动态信息提取和查询生成]_通过判断动态数值需求、提取关键字并查询数据库,最终生成包含动态数值的完整回答-CSDN博客

本文链接：https://blog.csdn.net/nseejrukjhad/article/details/144201873

如何在SQL问答中处理大型数据库：动态信息提取和查询生成

近年来，使用自然语言处理技术实现对数据库的问答功能变得越来越普遍。然而，当面对大型数据库时，如何有效地处理和生成正确的SQL查询是个巨大的挑战。在这篇文章中，我们将探讨如何动态提取最相关的信息，并将其用于生成有效的SQL查询。

引言

在进行SQL问答时，面对拥有多个表和高基数列的大型数据库，将完整的信息提供给模型是不切实际的。相反，我们需要找到方法，动态地将最相关的信息插入到提示中。本指南演示了识别此类相关信息的方法，并将其输送到查询生成步骤中。

主要内容

1. 识别相关的表子集

在面对多个表时，我们通常不能将所有表的模式信息放入提示中。一种可行的方法是首先识别与用户输入相关的表名，仅包含这些表的模式。可以通过工具调用技术轻松实现这一点。

from langchain_community.utilities import SQLDatabase

db = SQLDatabase.from_uri("sqlite:///Chinook.db")
table_names = "\n".join(db.get_usable_table_names())
system = f"Return the names of ALL the SQL tables that MIGHT be relevant to the user question. \nThe tables are:\n\n{table_names}\n"

2. 识别相关的列值子集

处理高基数（例如包含地址、歌曲名称或艺术家等专有名词）的列时，我们需要确保拼写正确。这可以通过在数据库中创建向量存储以存储所有不同的专有名词，并在每个用户输入时查询该向量存储，将最相关的专有名词注入提示中。

from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

vector_db = FAISS.from_texts(proper_nouns, OpenAIEmbeddings())
retriever = vector_db.as_retriever(search_kwargs={"k": 15})

代码示例

以下是一个完整的示例，展示如何结合上面提到的方法，动态选择相关的表并生成适当的SQL查询：

query = full_chain.invoke(
    {"question": "What are all the genres of Alanis Morissette songs"}
)
print(query)

db.run(query)

输出:

SELECT DISTINCT "g"."Name"
FROM "Genre" g
JOIN "Track" t ON "g"."GenreId" = "t"."GenreId"
JOIN "Album" a ON "t"."AlbumId" = "a"."AlbumId"
JOIN "Artist" ar ON "a"."ArtistId" = "ar"."ArtistId"
WHERE "ar"."Name" = 'Alanis Morissette'
LIMIT 5;