1. 下载链接:
https://fb-public.app.box.com/s/chnq60iivzv5uckpvj2n2vijlyepze6w
2. 数据集大小
大小: 32.9M
3. 及文件组成
(1) 任务 1-5
training | development | testing |
---|---|---|
1000 | 1000 | 1000 |
其中,任务1-5还包含一个OOV测试集文件,与tst文件不同之处是,该测试集中包含training和development 数据集中不存在的实体。
此外,还包含一个dialog-babi-kb-all.txt
文件,存储了任务1-5中出现的所有实体(包括test-oov中的吗??)。dialog-babi-candidates.txt
文件中包含任务1-5中所有预测句子的集合(我的理解是系统查询调用api_call的所有可能数据或者是返回的可能数据??)
(2) 任务6
任务6数据集是将DSTC2的数据修改成和任务1-5相同数据格式得到的,没有与之相关的OOV测试集,且dialog-babi-task6-dstc2-kb.txt
知识库不完整。但该任务也包含candidate文件dialog-babi-task6-dstc2-candidates.txt
。
4. 数据格式
[ID] [User] [Bot]
每段对话从ID=1开始,每行包含本行在整段对话中的ID(红色)
,用户说话(黄色)
,Bot回复(蓝色)
,当Bot连续说多句话时,用特殊标记“<SILENCE>”(绿色)
来表示该行缺少的用户话语。
5. 数据集目标
目标是预测机器人的回答,即数据集中用 <api_call>
标记的句子。
6. 相关论文
(1)涉及论文:
LEARNING END-TO-END GOAL-ORIENTED DIALOG
注:这个论文就是为了说明Memory network在dialog中也是有用的
- 代码实现(搬运工):TensorFlow
- 相关文章学习(感谢):https://zhuanlan.zhihu.com/p/31123862
https://yzhihao.github.io/machine learning/2017/05/27/Learning-End-to-End-Goal-Oriented-Dialog.html
https://zhuanlan.zhihu.com/p/27762254 - 模型: End-to-end memory network
(2) 文章涉及任务:
模型用来预测机器人话语(utterance)和API调用
- 任务1测试机器人解释用户请求并通过询问问题来发起正确API调用的能力
- 任务2测试修改API调用的能力
- 任务3和4测试使用API调用来提出选项和额外信息的能力
- 任务5将涵盖了以上所有任务
(3) 总结:
任务型对话 端到端训练的优势在于不用独立涉及SLU和DST(减小累积误差),缺点在于很难结合知识库,同时该论文中的回复模板需要自己定制,可迁移性差。