Abstract
我们描述了 ConvAI2 NeurIPS 比赛的设置和结果。这个比赛的目标是推进 open-domain chatbots 的 SOTA. 一些关键要点是:
- 预训练 Transformer 变体是当前这个任务上效果最好的模型
- 为了提升多轮对话的性能,未来的系统需要的不仅仅是单词度量指标如困惑度,还需要去度量对话序列的质量,例如重复、一致性以及对话动作的平衡(例如问了多少问题 vs. 回答了多少问题)
Overview of the competition
Conversational Intelligence Challenge 比赛的目的是创建可以进行有意义的开放领域人机对话的高质量的对话 agent. 这个任务的主要障碍是对于非任务型的对话系统,还没有建立相关的 benchmark 及 solid 的评估标准来自动化地评估对话质量。这个竞赛意在建立一个具体的场景来测试目标为让用户投入的 chatbot. 竞赛希望建立一个标准的评估工具来使得这些对话系统可以直接比较,包括开源数据集,评估代码(自动评估以及在 Mechanical Turk 上自动进行 human evaluation 的代码),模型