Learning from Dialogue after Deployment: Feed Yourself, Chatbot!

67 篇文章 2 订阅
60 篇文章 1 订阅

Abstract

对于一个 bot 来说,它一生中看到的最多的对话是出现在它被部署到生产环境之后,这就产生了大量未被利用的训练数据。本文提出一种 自馈对话机器人(self-feeding chatbot),它能够从它自己参与的对话中自动抽取新的训练样本。

在该 bot 参与对话的过程中,它还会评估用户的满意度。

  • 当对话进展良好时,用户的回复成为需要模拟的训练样本
  • 当 bot 认为自己犯了错误时,它会询问用户以获得反馈
    • 学习预测这种反馈可以进一步提高 bot 的对话技能

在 PERSONACHAT 闲聊数据集上(包含 131k 训练样本),我们发现无论传统监督的数量如何,使用自馈对话机器人从对话中学习都显著提高了性能。

1 Introduction

训练一个 bot 使之像人类那样对话需要大量的监督。最常见的方式是训练一个模型来模拟大量众包或爬取的对话语料中的人类回复 (Serban et al., 2015)。这些对话语料要么收集代价高昂,要么其设置和真实的部署环境存在很大差别。相比之下,bot 最理想的学习方式是部署后从自己参与的对话中学习,因为此时遇到的样本往往是丰富、特定于具体任务、动态的以及廉价的。这和人类学习说话的方式类似,不仅仅是观察其他人进行 “专家级” 的对话,而是根据交织于我们自己的对话中的反馈,积极调整和纠正我们的对话。对于一个对话机器人来说,通过这项技能,它能够在它的一整个机生中持续提升和

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值