文章目录
一、论文速读
本文提出了一个 pipeline 框架——CHESS——来解决应用于复杂的真实数据库场景下的 Text2SQL 问题。
在现实场景下,数据库 schema 通常包含不明确的 column name、table name 和混乱的数据,这都对 SQL 转换问题提出了挑战,因此需要一个健壮的检索系统来识别出其中相关的信息。下图展示了一个在做 Text2SQL 时会面临的挑战:
- 1)用户问题可能没有确切的数据库值
- 2)column name 可能不能很好的表示这一列存储了什么数据,因此需要 database catalogs 信息来辅助
- 3)对于一个 question,有多种 SQL 写法
在以往的研究中,大多将 SQL 生成的上下文限制为 table schema、column 定义和 sample rows,但在生产级数据库中,db catelog、db value 也是重要的辅助信息。
本文提出了 CHESS,一个针对现实世界的复杂 DB 的 Text2SQL 系统,它引入了一个 scalable、effective 的 LLM-based 的 pipeline 用于 SQL 生成,主要由三个组件构成:entity and context retrieval、schema selection、SQL generation。