A Token-level Reference-free Hallucination Detection Benchmark forFree-form Text Generation 用于自由格式文本生成的令牌级无参考幻觉检测基准
算是一个数据集 不用参考
1. 摘要
像 GPT3 这样的大型预训练生成模型经常会出现不存在或不正确的内容的幻觉,这削弱了它们在实际应用中的潜在优点。现有的工作通常尝试根据句子或文档级别的相应预言参考来检测这些幻觉。然而,对于许多自由格式文本生成应用程序来说,真实参考可能不容易获得,并且句子或文档级检测可能无法提供实时防止错误内容的细粒度信号。作为解决这些问题的第一步,我们提出了一种新颖的令牌级、无参考幻觉检测任务和一个名为 HADES(HAllucination DEtection dataSet)1 的关联注释数据集。为了创建这个数据集,我们首先扰乱从英语维基百科中提取的大量文本片段,然后使用众包注释来验证这些文本片段。为了减轻注释期间的标签不平衡,我们采用迭代模型循环策略。我们进行全面的数据分析并创建多个基线模型