利用 RAGFlow 的 RAG 功能构建 Text2SQL Agent

最新推荐文章于 2025-03-28 09:34:39 发布

AGI大模型学习

最新推荐文章于 2025-03-28 09:34:39 发布

阅读量1.5k

点赞数 25

文章标签： LLM 大模型面试 AI 人工智能 DeepSeek-R1 RAG Agent

本文链接：https://blog.csdn.net/2401_84495872/article/details/146443322

版权

Text2SQL 代理弥补了自然语言处理 (NLP) 和结构化查询语言 (SQL) 之间的差距。其主要优势如下：

帮助非技术用户使用 SQL：并非所有用户都具有 SQL 背景或了解查询所涉及的表的结构。使用 Text2SQL 代理，用户可以用自然语言提出问题或请求数据，而无需深入了解数据库结构或 SQL 语法。
提高 SQL 开发效率：对于熟悉 SQL 的用户，Text2SQL 代理简化了流程，使用户能够快速构建复杂查询，而无需手动编写每个部分的代码。
最大限度地减少错误：手动编写 SQL 查询很容易出错，尤其是对于复杂的查询或不熟悉数据库结构的用户。Text2SQL 代理可以解释自然语言指令并生成准确的 SQL 查询，从而减少潜在的语法和逻辑错误。
提升数据分析能力：在商业智能和数据分析中，快速从数据中获取见解至关重要。Text2SQL 代理有助于更直接、更方便地从数据库中提取有价值的信息，从而有助于加快决策。
自动化和集成：Text2SQL 代理可以集成到更大的系统中，以支持自动化工作流程，例如自动生成报告和数据监控。它还可以与其他服务和技术无缝集成，提供更丰富的应用可能性。
支持多种语言和多种表达方式：人们可以用多种方式表达同一个想法。一个有效的 Text2SQL 系统应该能够理解各种表达方式并准确地将其转换为 SQL 查询。

总之，Text2SQL 代理致力于使数据库查询更加直观和用户友好，同时确保效率和准确性。它迎合了广泛的用户群体，从完全不懂技术的个人到经验丰富的数据分析师和开发人员。

然而，传统的 Text2SQL 解决方案通常需要模型微调，当在企业环境中与 RAG 或 Agent 组件一起实施时，这会大大增加部署和维护成本。RAGFlow 基于 RAG 的 Text2SQL 利用现有的（连接的）大型语言模型 (LLM)，允许与其他 RAG/Agent 组件无缝集成，而无需额外的微调模型。

基于RAG提供的Text2SQL的工作流程：

数据准备

数据库环境

Mysql-8.0.39

数据库表创建

SET NAMES utf8mb4;
-- ------------------------------ Table structure for Customers-- ----------------------------DROP TABLE IF EXISTS `Customers`;CREATE TABLE `Customers` (  `CustomerID` int NOT NULL AUTO_INCREMENT,  `UserName` varchar(50) COLLATE utf8mb4_unicode_ci DEFAULT NULL,  `Email` varchar(100) COLLATE utf8mb4_unicode_ci DEFAULT NULL,  `PhoneNumber` varchar(20) COLLATE utf8mb4_unicode_ci DEFAULT NULL,  PRIMARY KEY (`CustomerID`)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
-- ------------------------------ Table structure for Products-- ----------------------------DROP TABLE IF EXISTS `Products`;CREATE TABLE `Products` (  `ProductID` int NOT NULL AUTO_INCREMENT,  `ProductName` varchar(100) COLLATE utf8mb4_unicode_ci DEFAULT NULL,  `Description` text COLLATE utf8mb4_unicode_ci,  `Price` decimal(10,2) DEFAULT NULL,  `StockQuantity` int DEFAULT NULL,  PRIMARY KEY (`ProductID`)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
-- ------------------------------ Table structure for Orders-- ----------------------------DROP TABLE IF EXISTS `Orders`;CREATE TABLE `Orders` (  `OrderID` int NOT NULL AUTO_INCREMENT,  `CustomerID` int DEFAULT NULL,  `OrderDate` date DEFAULT NULL,  `TotalPrice` decimal(10,2) DEFAULT NULL,  PRIMARY KEY (`OrderID`),  KEY `CustomerID` (`CustomerID`)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
-- ------------------------------ Table structure for OrderDetails-- ----------------------------DROP TABLE IF EXISTS `OrderDetails`;CREATE TABLE `OrderDetails` (  `OrderDetailID` int NOT NULL AUTO_INCREMENT,  `OrderID` int DEFAULT NULL,  `ProductID` int DEFAULT NULL,  `UnitPrice` decimal(10,2) DEFAULT NULL,  `Quantity` int DEFAULT NULL,  `TotalPrice` decimal(10,2) DEFAULT NULL,  PRIMARY KEY (`OrderDetailID`),  KEY `OrderID` (`OrderID`),  KEY `ProductID` (`ProductID`)) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

配置知识库

对于 RAGFlow 基于 RAG 的 Text2SQL，通常需要以下知识库：

DDL：数据库表创建语句。
DB_Description：表和列的详细描述。
Q->SQL：自然语言查询描述以及相应的 SQL 查询示例（问答对）。

然而，在专门的查询场景中，用户查询可能包括领域特定术语的缩写或同义词。如果用户引用领域特定术语的同义词，系统可能无法生成正确的 SQL 查询。因此，建议整合同义词词库，以帮助代理生成更准确的 SQL 查询。

TextSQL_Thesaurus：涵盖特定领域术语及其同义词的同义词库。

配置DDL知识库

1.DDL文本内容如下：

CREATE TABLE `vendor`  (  `id` varchar(66) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,  `name` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL ,  `status` varchar(32) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT 'Normal',  `sync_mode` varchar(64) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL ,  `description` varchar(500) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL ,  `created_time` datetime(0) NULL DEFAULT NULL ,  PRIMARY KEY (`id`) USING BTREE) ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;CREATE TABLE `vendor_task`  (  `id` varchar(66) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,  `vendor_id` varchar(66) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL ,  `status` varchar(32) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL ,  `type` varchar(32) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL ,  `error_msg` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL ,  `remark` varchar(500) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL ,  `content` text CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,  `retry_num` tinyint(4) NULL DEFAULT 0 ,  `next_retry_date` datetime(0) NULL DEFAULT NULL ,  `created_time` datetime(0) NULL DEFAULT NULL COMMENT '创建时间',  PRIMARY KEY (`id`) USING BTREE,) ENGINE = InnoDB CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

2.设置 DLL 知识库的块数据, 嵌入模型选择自带的模型，分块方式选择General就可以了。选择好后点击保存。

https://img1.sycdn.imooc.com/84b5c56709d2a2ac09380860.jpg

然后上传DDL.txt文件进行解析。

https://img1.sycdn.imooc.com/251e746709d2a3b518230670.jpg

配置DB_Description知识库

1.DB_Description文本内容如下：

### vendor(厂商表)vendor表记录了厂商的详细信息。以下是该表中每个字段的含义：	id：厂商唯一标识符。	name：厂商名称。	status：厂商状态。其中Normal代表正常；Disabled代表禁用。	sync_mode：同步模式。其中SystemAuto代表系统自动模式；Human代表人工无确认模式；HumanConfirm代表人工确认模式。	created_time:创建时间。	### vendor_task(厂商任务表)vendor_task表记录厂商任务的详细信息。以下是该表中每个字段的含义：	id：厂商任务唯一标识符。	vendor_id:外键，引用vendor表中的id，指示哪个厂商的任务。	status：任务状态。其中NO_SYNC代表不同步；DEFAULT 待同步；PROCESSING 处理中；SUCCESS 成功；FAILED 失败；CANCELLED 取消；UNCONFIRMED 待确认；CONFIRMED 已确认。	type：任务类型。其中OpenCard 开卡；LossCard 挂失；UnLossCard 解除挂失；ReturnCard 退卡；ReplaceCard 换卡。	error_msg:错误信息。	reamrk：备注。	content：任务内容。	retry_num：任务重试次数。	next_retry_date：任务下次重试时间。	created_time:创建时间。

2.设置 DB_Description 知识库的块数据

https://img1.sycdn.imooc.com/9c81516709d2a54f18210582.jpg

配置Q->SQL知识库QA.xlsx

这是我配置的参考SQL，列举了一些任务失败、异常任务和正常重试任务的例子。

问题：列举所有的厂商 回答：select id,name,description from vendor;问题：开卡失败的任务数量 回答：select count(*) 'total_count' from vendor_task where status = 'FAILED' and type = 'OpenCard';问题：获取异常的任务 回答：SELECT t.id,v.`name`,t.type,t.created_time FROM vendor_task t LEFT JOIN vendor v ON t.vendor_id = v.id WHERE t.`status` = 'DEFAULT' AND t.retry_num > 0 AND next_retry_date < NOW();问题：列表10条最新的异常任务 回答：SELECT t.id,v.`name`,t.type,t.created_time FROM vendor_task t LEFT JOIN vendor v ON t.vendor_id = v.id WHERE t.`status` = 'DEFAULT' AND t.retry_num > 0 AND next_retry_date < NOW() ORDER BY t.created_time DESC LIMIT 10;问题：获取正在重试的任务 回答：SELECT t.id,v.`name`,t.type,t.created_time FROM vendor_task t LEFT JOIN vendor v ON t.vendor_id = v.id WHERE t.`status` = 'DEFAULT' AND t.retry_num > 0 AND next_retry_date >= NOW() ORDER BY t.created_time DESC;

最终要整理成Excel，格式如下：

https://img1.sycdn.imooc.com/09610f6709d93c3114910612.jpg

这里要注意，因为我们要上传的是Excel，所以解析方式要选择Q&A。

https://img1.sycdn.imooc.com/8227526709d93b4708490818.jpg

上传QA.xlsx

https://img1.sycdn.imooc.com/6189306709d93bdf18900808.jpg

构建TextToSQl的Agent

路径：Agent -> Create agent -> Text To SQL

新建后系统默认生成一个模板。我们只需要添加一个ExeSQL插件即可。如图所示：

https://img1.sycdn.imooc.com/c5687f6709d93d8419200927.jpg

然后分别对DDL、Q->SQL、DB_Description、GenSQL和ExeSQL进行配置。

a.DDL

单击DDL，Input选择Interface，知识库选择之前新建的DDL知识库。

https://img1.sycdn.imooc.com/72e1ae6709d93e4716700868.jpg

b.DB Description

https://img1.sycdn.imooc.com/cdad076709d93ebe16710864.jpg

c.Q->SQL

https://img1.sycdn.imooc.com/4454e66709d93f1d16580881.jpg

d.LLM

https://img1.sycdn.imooc.com/9556666709d93f6c16850860.jpg

e.ExeSQL

5.运行

完成以上配置后，点击Run，我们就可以提问了。

https://img1.sycdn.imooc.com/77363b6709d9418216750861.jpg

📢喜欢的小伙伴欢迎

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。