利用Kinetica将自然语言转化为SQL：简化数据检索的终极指南

cgsayuclv

于 2024-10-06 11:16:53 发布

阅读量108

点赞数 3

文章标签： sql 数据库 python

本文链接：https://blog.csdn.net/cgsayuclv/article/details/142724738

版权

引言

在数据驱动的时代，快速、准确地提取信息变得尤为重要。Kinetica提供了一种将自然语言转换为SQL查询的强大工具，使得数据检索更加简单直观。本文将探讨如何利用Kinetica将自然语言转化为SQL，从而简化数据提取过程。

主要内容

Kinetica简介与工作流

Kinetica利用大规模并行计算和LLM（大语言模型）为用户提供强大的数据分析能力。通过创建LLM上下文，Kinetica可以理解数据库的表、注释、规则和样本。

支持的LLM

目前，Kinetica支持两种用于SQL生成的LLM：

Kinetica SQL-GPT：基于OpenAI的ChatGPT API。
Kinetica SqlAssist：为Kinetica数据库定制，可以在客户的安全环境中运行。

本文将使用Kinetica SqlAssist。

准备工作

要开始使用Kinetica，你需要一个Kinetica DB实例。如果没有，可以申请一个免费的开发实例。此外，确保安装以下包：

# 安装Langchain核心包
%pip install --upgrade --quiet langchain-core langchain-community

# 安装Kinetica DB连接包
%pip install --upgrade --quiet 'gpudb>=7.2.0.8' typeguard pandas tqdm

# 安装额外的必要包
%pip install --upgrade --quiet faker ipykernel

数据库连接

设置以下环境变量来配置数据库连接：

KINETICA_URL: 数据库连接URL
KINETICA_USER: 数据库用户
KINETICA_PASSWD: 安全密码

接下来，测试连接：

from langchain_community.chat_models.kinetica import ChatKinetica

kinetica_llm = ChatKinetica()

创建测试数据

使用faker包生成模拟数据，并创建一个Kinetica表。

from typing import Generator
import pandas as pd
from faker import Faker

faker = Faker(locale="en-US")

def profile_gen(count: int) -> Generator:
    for id in range(count):
        rec = dict(id=id, **faker.simple_profile())
        rec["birthdate"] = pd.Timestamp(rec["birthdate"])
        yield rec

load_df = pd.DataFrame.from_records(data=profile_gen(100), index="id")

将数据导入Kinetica表：

from gpudb import GPUdbTable

gpudb_table = GPUdbTable.from_df(load_df, db=kinetica_llm.kdbc, table_name="demo.user_profiles", clear_table=True, load_data=True)

创建LLM上下文

通过SQL语法创建上下文。

from gpudb import GPUdbSamplesClause, GPUdbSqlContext, GPUdbTableClause

table_ctx = GPUdbTableClause(table="demo.user_profiles", comment="Contains user profiles.")
samples_ctx = GPUdbSamplesClause(samples=[
    ("How many male users are there?", "SELECT count(1) as num_users FROM demo.user_profiles WHERE sex = 'M';")
])

context_sql = GPUdbSqlContext(name="demo.test_llm_ctx", tables=[table_ctx], samples=samples_ctx).build_sql()
kinetica_llm.kdbc.execute(context_sql)

使用Langchain进行推理

通过load_messages_from_context()函数从数据库加载上下文消息，然后创建提示模板。

from langchain_core.prompts import ChatPromptTemplate

ctx_messages = kinetica_llm.load_messages_from_context("demo.test_llm_ctx")
ctx_messages.append(("human", "{input}"))

prompt_template = ChatPromptTemplate.from_messages(ctx_messages)

创建执行链并生成SQL：

from langchain_community.chat_models.kinetica import KineticaSqlOutputParser

chain = prompt_template | kinetica_llm | KineticaSqlOutputParser(kdbc=kinetica_llm.kdbc)
response = chain.invoke({"input": "What are the female users ordered by username?"})

print(f"SQL: {response.sql}")
print(response.dataframe.head())