Open Book QA(开卷问答)是一种特定类型的问答任务,它模拟了人类在考试中可以查阅书籍或参考资料的情景。在这个设定下,AI系统被允许访问一组预先指定的资源,例如一组科学事实、文章或其他形式的知识库,以帮助回答问题。与之相对的是Closed Book QA(闭卷问答),在这种情况下,AI必须依靠其内部训练过的知识来回答问题,而不能查阅外部资源。
OpenBookQA 数据集
OpenBookQA 是由美国艾伦人工智能研究院(Allen Institute for AI)发布的一个问答技术评测集,旨在评估AI系统对核心科学事实的理解和应用能力。该数据集包含大约6,000个选择题,这些题目主要面向小学科学知识,并且每个问题都关联到一个核心科学事实。值得注意的是,尽管提供了这些核心事实作为参考,但要正确回答许多问题还需要额外的常识性知识。
此外,OpenBookQA 数据集还具有以下特点:
- 它不仅考察对给定事实的记忆,而且测试将这些事实应用于新情况的能力。
- 题目设计使得简单的检索算法或基于词汇共现的方法无法直接得出正确答案。
- 包含了5,167个人类编写的常识性事实,以及扩展版本的问题集,其中每个问题都有对应的核心事实、人类准确性评分、清晰度评分等信息。
研究进展
南京大学的研究团队在其提出的GenMC模型上取得了重要突破,在OpenBookQA评测集中达到了92%的准确率,首次达到了人类水平的表现。GenMC模型通过引入“线索生成器”和“增强阅读器”的双模块架构,有效地结合了编码器的语言理解能力和解码器的语言生成能力,从而更好地处理选择题问答任务。具体