【翻译】End-to-End Reinforcement Learning of Dialogue Agents for Information Access

本文介绍了微软邓力教授的研究,提出了一种端到端强化学习的方法来训练对话代理KB-InfoBot,该代理能从知识图谱中生成响应。研究揭示了传统goal-oriented对话系统的组成部分,包括语言理解、对话状态跟踪、对话规则和自然语言生成,并指出这些组件的独立训练和不可微问题。为解决这一问题,研究中将SQL查询替换为概率框架,以推断用户目标在KB实体上的后验分布。
摘要由CSDN通过智能技术生成

本文是微软研究软邓力老师的文章,构建了一种从知识图谱中形成response的聊天机器人KB-InfoBot,并且提出了一种端到端的增强学习训练方案。

(本文对于构建一个端到端的KB + task-oriented chatbot非常有启发和指导意义)

introduction

一个典型的goal-oriented(就是比如query一个人演的某年电影)一般由四个部分组成:

一,language understanding(LU)模块来预测用户目的以及抽取相关slots;
二,一个对话状态记录器来记录用户意图和对话历史;
三,一个对话规则来根据当前的状态选择下一步的系统行动;
四,natural language generator (NLG)来把对话行动转化为自然语言

有必要给对话规则以数据库里的真实世界的知识,之前的end-to-end系统通过构造一个symbolic query以及从数据库里取数据来实现这点,不幸的是,这样的操作让模型non-differentiable以及对话系统的各个模块分开被训练。

在我们的工作,我们将类SQL的查询替换为一个probabilistic framework for inducing a 后验分布 of the user target over KB entities,
我们从the belief tracker multinomials over attribute-values and binomial probabilities of the user not knowing the
value of an attribute来构造这个分布。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值