论文略读 | Learning End-to-End Goal-Oriented Dialog++Dialog-bAbI数据集

1. 下载链接:

https://fb-public.app.box.com/s/chnq60iivzv5uckpvj2n2vijlyepze6w

2. 数据集大小

大小: 32.9M

3. 及文件组成
(1) 任务 1-5
trainingdevelopmenttesting
100010001000

其中,任务1-5还包含一个OOV测试集文件,与tst文件不同之处是,该测试集中包含training和development 数据集中不存在的实体。
在这里插入图片描述
此外,还包含一个dialog-babi-kb-all.txt文件,存储了任务1-5中出现的所有实体(包括test-oov中的吗??)。dialog-babi-candidates.txt文件中包含任务1-5中所有预测句子的集合(我的理解是系统查询调用api_call的所有可能数据或者是返回的可能数据??)

(2) 任务6

任务6数据集是将DSTC2的数据修改成和任务1-5相同数据格式得到的,没有与之相关的OOV测试集,且dialog-babi-task6-dstc2-kb.txt知识库不完整。但该任务也包含candidate文件dialog-babi-task6-dstc2-candidates.txt

4. 数据格式
[ID]  [User]  [Bot]

每段对话从ID=1开始,每行包含本行在整段对话中的ID(红色)用户说话(黄色)Bot回复(蓝色),当Bot连续说多句话时,用特殊标记“<SILENCE>”(绿色)来表示该行缺少的用户话语。
在这里插入图片描述

5. 数据集目标

目标是预测机器人的回答,即数据集中用 <api_call>标记的句子。

6. 相关论文
(1)涉及论文:

LEARNING END-TO-END GOAL-ORIENTED DIALOG
注:这个论文就是为了说明Memory network在dialog中也是有用的

(2) 文章涉及任务:

模型用来预测机器人话语(utterance)和API调用
在这里插入图片描述

  • 任务1测试机器人解释用户请求并通过询问问题来发起正确API调用的能力
  • 任务2测试修改API调用的能力
  • 任务3和4测试使用API调用来提出选项和额外信息的能力
  • 任务5将涵盖了以上所有任务
(3) 总结:

任务型对话 端到端训练的优势在于不用独立涉及SLU和DST(减小累积误差),缺点在于很难结合知识库,同时该论文中的回复模板需要自己定制,可迁移性差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值