DialFact:对话中事实核查的基准
Abstract
事实核查是减少错误信息和虚假信息传播的重要工具。我们介绍了对话中的事实核查任务,这是一个相对尚未探索的领域。我们构建了DIALFACT,这是一个包含22245条带注释的会话声明的测试基准数据集,并与维基百科的证据进行了配对。DIALFACT中有三个子任务:1)V可验证的索赔检测任务区分响应是否携带可验证的事实信息;2)证据检索任务检索最相关的维基百科片段作为证据;3)声明验证任务预测对话响应是否得到支持、驳斥或信息不足。我们发现,现有的基于非对话数据(如FEVER)训练的事实检查模型(Thorne等人,2018)无法很好地完成我们的任务,因此,我们提出了一种简单但数据高效的解决方案,以有效提高对话中的事实检查性能。我们指出了DIALFACT中的独特挑战,如在错误分析中处理口语、参考语和检索歧义,以为未来这方面的研究提供依据。