题目:ConvLab-2: An Open-Source Toolkit for Building, Evaluating, and Diagnosing Dialogue Systems
作者:朱祺(清华大学),张正(清华大学),方言(清华大学),李响(清华大学),高信龙一(清华大学),李金超(微软研究院),彭宝霖(微软研究院),高剑锋(微软研究院),朱小燕(清华大学),黄民烈(清华大学)
会议:ACL 2020 (demo track)
ConvLab-2 框架图
ConvLab及ConvLab-2是由清华大学交互智能(CoAI)小组与微软研究院合作开发的任务导向对话平台。为了便于研究人员用最新的模型轻松搭建对话系统,进行端到端评估,以及诊断系统的缺陷,我们在ConvLab基础上开发了ConvLab-2开源工具包。ConvLab-2平台支持多种对话系统搭建方式,包括多种流水线式和端到端式。支持的模型覆盖了对话系统各个模块,用户也可以便捷的加入自己的模型。平台还提供了端到端评估的工具,可与用户模拟器进行仿真对话或者通过众包网站与真人对话,便于对比不同类型的对话系统。作为ConvLab的后继者,ConvLab-2优化了框架的易用性和扩展性,为对话系统各个模块提供了最新的模型,并且支持更多的数据集。除此之外,我们还开发了分析工具和交互工具。分析工具可用于从模拟的对话中提取丰富的统计信息,总结常见的错误,便于对系统进行错误分析和改进。利用交互工具可将对话系统部署到服务器上,人们通过网页与系统交互,并可以查看和更改系统内部输出,便于诊断对话系统以及收集人机对话数据。交互工具屏幕截图
ConvLab-2将被用作第九届对话系统技术挑战赛多领域任务导向对话挑战赛道(Dialog System Technology Challenge, Multi-domain Task-oriented Dialog Challenge II track)使用的标准开发平台,涉及两个任务:1. 端到端多领域任务导向对话:参赛者需要基于MultiWOZ 2.1 数据集搭建一个端到端对话系统,评估时综合考虑与用户模拟器(由ConvLab-2平台提供)和真人进行对话时任务的成功率。
2. 跨语言对话状态追踪:参赛者需要搭建跨语言的对话状态追踪模型,在源语言的数据上训练,在目标语言的数据上测试。我们使用英文MultiWOZ和中文CrossWOZ作为训练的数据集,在中文翻译的MultiWOZ和英文翻译的CrossWOZ上进行测试。我们还提供了源语言机器翻译的训练集。
ConvLab-2 论文: https://arxiv.org/abs/2002.04793 ConvLab-2 代码: https://github.com/thu-coai/Convlab-2 ConvLab-2 demo: https://drive.google.com/file/d/1HR3mjhgLL0g9IbqU443NsH2G0-PpAsog/view?usp=sharing DSTC 9 多领域任务导向对话挑战说明: https://github.com/ConvLab/ConvLab-2责任编辑:杨成