E2E挑战赛任务就是根据一堆属性生成一句自然话术。该任务使用了新的E2E数据集,有提交的62个模型(方法),所以本文对相关的方法进行了归总,每类方法选出了一些代表,并进行简单介绍。
数据统计
- E2E数据集主要是描述餐馆的信息,有6个属性(slot),6个是可以枚举的,2个是open的(名字和地点)。
- 数据集规模上,比之前的Bagel、SF hotels/Resturants、RoboCup的数据集都要大,平均每个MR都有8.27个reference与之对应,所以表述上也更加丰富。
部分 | MRs | References |
---|---|---|
训练集 | 4862 | 42061 |
测试集 | 547 | 4672 |
验证集 | 630 | 4693 |
全集 | 6039 | 51426 |
参赛模型
baseline是TGen模型。参赛模型可以大致分为四类:seq2seq、data-driven、rule-based、template-based。
每类模型数量概况如下图:
每一类方法