谷歌机器对话Self-Play框架M2M-Building a Conversational Agent Overnight with Dialogue Self-Play

Building a Conversational Agent Overnight with Dialogue Self-Play
Google提出了 Machines Talking To Machines(M2M,机器对话机器)的框架,这是一个功能导向的流程,用于训练对话智能体。其主要目标是通过自动化任务无关的步骤以减少建立对话数据集所需的代价,从而对话开发者只需要提供对话的任务特定的层面。另一个目标是获得更高质量的对话,「高质量」指的是:(1)语言和对话流的多样性,(2)所有预期用户行为的覆盖范围;以及(3)监督标签的准确性。最后,这个框架的目标是引导对话智能体,使其被部署去服务实际的用户,并达到可接受的任务完成率,之后,该框架应该能使用强化学习通过用户反馈直接提升自身性能。

1. Wizard-of-Oz

首先讲一下Wizard-of-Oz如何通过众包工作者产生task oriented多轮对话。

1.1 user

image-20181112232940043

user: 给出实体(infrom, request),查看历史对话和任务描述,给出适当的回应句子。

1.2 wizard

image-20181112232917736

给出一个表格,众包工作人员需要浏览对话历史记录。

  1. 通过在本回合解释用户输入填写表单(顶部绿色),并根据历史记录和数据库结果键入适当的响应( 底部绿色)。 提交表单时更新数据库搜索结果。 表单可以分为infrom slot和可request slot,包含state tracker所需的所有标签。
  2. 还需要输出回应

1.3 优缺点

其优势在于:

每个人按轮次来标注,需要查看历史对话记录。使得数据的采集可以并行,减少标注者等待时间。

主要缺点

  • 可能不会涵盖所有的交互。(人主导)
  • 可能包含不适合用作培训数据的对话(例如,如果群众工作者使用过于简单化或过于复杂的语言)
  • 对话注释中可能有错误,需要开发人员过滤和清洗。

论文:

  1. A Network-based End-to-End Trainable Task-oriented Dialogue System
  2. Frames: a corpus for adding memory to goal-oriented dialogue systems

2. M2M框架

自动化任务无关的步骤以减少建立对话数据集所需的代价。

  1. 对话开发者提供任务Schema(intents&Slots)和API客户端,
  2. 自动机器人(User Bot&System bot)生成对话轮廓Outlines,(一个agenda based用户模拟器和一个基于有限状态机器的system agent)
  3. 众包重写成自然语言表达并验证slot span。
  4. 在数据集上用监督学习训练对话模型。

page1image3802880.png

生成大纲与段落的示例。

image-20181112233156132

用户根据M2M生成的outline,来生成真正的对话。

image-20181112233242394

用户评价对话界面。

image-20181112233256311

2.1 优势:

  1. Function driven,开发者提供Schema和API,不需要很精细设计(精力,周全)。
  2. 对话流多样(bot的设计)。
  3. 覆盖预期的用户行为。
  4. 标签的正确性。

在达到一定任务完成率,部署上线使用强化学习直接从用户反馈中改进它们。

2.2 评价:

DSTC2 与 M2M Restaurant 数据集在语言与对话流多样性的对比

MetricDSTC2 (Train)M2M Rest. (Train)
Dialogues16111116
Total turns116706188
Total tokens19929599932
Avg. turns per dialogue14.4911.09
Avg. tokens per turn8.548.07
Unique tokens / Total tokens0.00490.0092
Unique bigrams / Total tokens0.01770.0670
Unique transitions / Total turns0.09820.2646
Unique subdialogues(k=3) / Total subdialogues(n=3)0.18310.3145
Unique subdialogues(k=5) / Total subdialogues(n=5)0.56210.7061
Unique full outlines / Total dialogues0.92430.9292

用 M2M 收集的对话的人类评价。众包人员对用户与系统对话给出得分的平均值(1-5 分), 括号内是标准偏差。

image-20181112233359735

可能会遇到的问题

  1. Schema怎么设计,API如何接入,都是需要更具业务定制的解决方案。
  2. user bot采用rule-based,system bot机制?有限自动机?其实也是另一种rule-based,局限性?
  3. 众包的具体细节其实可以参考WOZ,是否能结合两者的优势。
  4. 数据集监督学习训练对话模型,后采用强化学习来优化模型。

Reference

  1. https://www.jiqizhixin.com/articles/Self-Play-M2M
  2. https://arxiv.org/abs/1801.04871
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百川AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值