vanna+deepseekV3+streamlit本地化部署

1、vanna介绍

1.1、基本介绍

vanna是一个基于 MIT 许可的开源 Python RAG(检索增强生成)框架,专注于 SQL 生成和相关功能。它利用大型语言模型(LLM)和检索增强生成技术,将自然语言输入转换为 SQL 查询,允许用户通过自然语言与数据库交互,无需精通 SQL 语法即可提取数据中的有价值信息。Vanna 的核心目标是简化数据库交互,降低数据查询的技术门槛,适用于数据分析师、业务专家以及普通用户。

1.2、工作原理

Vanna 的工作流程主要分为以下步骤:

  • 训练 RAG 模型
    基于用户的数据库模式(DDL)、元数据、文档和示例 SQL 查询,训练一个 RAG 模型,用于理解数据库结构和用户意图。
  • 语义检索
    用户提出自然语言问题后,Vanna 通过向量数据库进行语义检索,匹配相关信息。
  • 生成 SQL 查询
    结合检索到的上下文,利用 LLM 生成对应的 SQL 查询。
  • 执行与反馈
    在数据库中执行生成的 SQL 查询,并以表格或图表形式展示结果。同时,Vanna 支持自我学习,用户反馈和成功查询可进一步优化模型。

1.3、优点

  • 开源与可定制
    • 作为 MIT 许可的开源框架,Vanna 允许用户根据需求进行定制和集成,适应不同业务场景。
    • GitHub 星标已超 7200,社区活跃,持续优化潜力大。
  • 数据可视化
    查询结果以易于理解的表格、Pandas DataFrame 直观的可视化图表呈现,帮助用户快速获取洞察。

2、vanna+deepseekV3+mysql+streamlit本地化部署

2.1、创建conda环境,安装依赖

  • 创建conda环境
conda create -n vanna-learn python=3.10
conda activate vanna-learn
  • 安装依赖包
pip3 install 'vanna[chromadb,mysql]'
pip3 install openai
pip3 install streamlit

2.2、Mysql数据准备

  • 创建数据库
CREATE SCHEMA `test_vn` DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
  • 创建表
CREATE TABLE `user` (
  `id` SERIAL COMMENT '用户ID',
  `name` varchar(64) DEFAULT NULL COMMENT '姓名',
  `age` INT(10) NULL DEFAULT NULL COMMENT '年龄',
  `gender` enum('MALE','FEMALE') NULL DEFAULT NULL COMMENT '性别',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
  • 插入测试数据
drop procedure if exists insert_emp; 
delimiter ;;
create procedure insert_emp()        
begin
  declare i int;                    
  set i=1;                          
  while(i<=1000)do                 
    insert into user(name,age,gender) values(CONCAT('tacy',i), FLOOR(RAND() * 100) + 1, IF(i % 3 = 0 , 'FEMALE', 'MALE')); 
    set i=i+1;                       
  end while;
end;;
delimiter ;
call insert_emp();

2.3、新建pycharm项目

在这里插入图片描述

2.4、封装deepseek大模型

新建deepseek_chat,py

from vanna.base import VannaBase
from openai import OpenAI

class DeepSeekChat(VannaBase):
    def __init__(self, config=None):
        if config is None:
            raise ValueError(
                "For DeepSeek, config must be provided with an api_key and model"
            )
        if "api_key" not in config:
            raise ValueError("config must contain a DeepSeek api_key")

        if "model" not in config:
            raise ValueError("config must contain a DeepSeek model")

        api_key = config["api_key"]
        model = config["model"]
        self.model = model
        self.client = OpenAI(api_key=api_key, base_url="https://api.deepseek.com/v1")

    def system_message(self, message: str) -> any:
        return {"role": "system", "content": message}

    def user_message(self, message: str) -> any:
        return {"role": "user", "content": message}

    def assistant_message(self, message: str) -> any:
        return {"role": "assistant", "content": message}

    def generate_sql(self, question: str, **kwargs) -> str:
        # 使用父类的 generate_sql
        sql = super().generate_sql(question, **kwargs)

        # 替换 "\_" 为 "_"
        sql = sql.replace("\\_", "_")

        return sql

    def submit_prompt(self, prompt, **kwargs) -> str:
        chat_response = self.client.chat.completions.create(
            model=self.model,
            messages=prompt,
        )

        return chat_response.choices[0].message.content

2.5、定义MyVanna

新建my_vanna,py

from vanna.chromadb import ChromaDB_VectorStore
from deepseek_chat import DeepSeekChat

class MyVanna(ChromaDB_VectorStore, DeepSeekChat):
    def __init__(self, config=None):
        ChromaDB_VectorStore.__init__(self, config=config)
        DeepSeekChat.__init__(self, config=config)

2.6、构建streamlit的app

新建app.py

  1. 实例化MyVanna
import streamlit as st
from my_vanna import MyVanna
import os
# DEEPSEEK_API_KEY在环境变量中设置
vn = MyVanna({'api_key': os.getenv('DEEPSEEK_API_KEY'), 'model': "deepseek-chat"})
  1. 连接数据库MYSQL
vn.connect_to_mysql(host='localhost', port=3306, dbname='test_vn', user='root', password='password')
  1. train
  • ddl表数据: 有多张表,分多个ddl,分次调用train()
DDL_USER="""
CREATE TABLE `user` (
  `id` SERIAL COMMENT '用户ID',
  `name` varchar(64) DEFAULT NULL COMMENT '姓名',
  `age` INT(10) NULL DEFAULT NULL COMMENT '年龄',
  `gender` enum('MALE','FEMALE') NULL DEFAULT NULL COMMENT '性别',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
"""
vn.train(ddl=DDL_USER)
  • documentation
vn.train(documentation='"即将失业的人"是指age>=35岁,也就是大于35岁的人会面临就业危机')
  • 存储sql到向量数据库
# 只传sql,让大模型根据SQL构造一个question
vn.train(sql='select name from user where age between 35 and 60')

# question-sql
vn.train(question='tacy18的年龄', sql='select age from user where name="tacy18"')
  1. 编写stream lit页面
st.header("你好,我是你的图表AI助理")
my_question = st.text_input("请问你要查询什么数据?")
if st.button("发送"):
    if my_question:
    	# 大模型根据自然语言描述的问题生成SQL
        sql = vn.generate_sql(my_question)
        # 执行SQL获取数据
        df = vn.run_sql(sql)
        # 调用大模型生成绘制图表的代码
        code = vn.generate_plotly_code(question=my_question, sql=sql, df=df)
        # 绘制图表
        fig = vn.get_plotly_figure(plotly_code=code, df=df)
        # 显示结果
        st.plotly_chart(fig, use_container_width=True)
  1. 启动应用
streamlit run app.py

2.7、app演示

在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值