论文:A comprehensive evaluation of ChatGPT’s zero-shot Text-to-SQL capability
⭐⭐⭐⭐
arXiv:2303.13547
这篇论文呢综合评估了 ChatGPT 在 zero-shot Text2SQL 任务上的表现。
dataset 使用了 Spider、Spider-SYN、Spider-DK、Spider-Realistic、Spider-CG、ADVETA、CSpider、DuSQL、SParC 以及 CoSQL。
由于 ChatGPT 生成的 SQL 多样性,所以这里主要使用了 execution accuracy 作为 metric。
一、使用的 Prompt
下图展示了使用 ChatGPT 来做 Text2SQL 的 prompts:
- 上半的 prompt 是单轮对话的场景
- 下半的 prompt 是多轮对话的场景
二、Evaluation Metrics
这里主要使用了三个 evaluation metric:
- valid SQL(VA):成功执行的 SQL 语句比例。
- execution accuracy