2023年东南大学论文:Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions
代码库已经无法访问了:https://github.com/tan92hl/Complex-Question-Answering- Evaluation-of-ChatGPT
1.简介
复杂问题的回答(KB-based CQA)是一种很有挑战性的KBQA任务,希望模型能具备compositional reasoning的学习能力,比如通过多步推理、进行集合操作或者其他复杂推理得到最终的答案。
如何去评判ChatGPT的回答表现呢?一方面,该文章采用的方法是,对测试问题进行打多个标签:答案类型(语法分析获得),推理操作,语种(数据集带了),这些标签每一个都可以助于分析ChatGPT的推理能力,标签间的组合也有助于发现潜在的问答场景和ChatGPT的表现情况。另一方面,沿用了checklist的测试方法对模型推理任务执行情况、推理过程可信服进行了测试。
KBQA数据集有很多,格式也不尽相同,这里选择的是基于SPARQL格式的数据集,并利用关键字来识别可能用于回答的推理操作。
结果简述:
- 单语问题的回答上,