【翻译】End-to-End Reinforcement Learning of Dialogue Agents for Information Access

最新推荐文章于 2023-04-03 17:59:27 发布

FocusOneThread

最新推荐文章于 2023-04-03 17:59:27 发布

阅读量1.9k

点赞数

分类专栏：深度学习自然语言处理文章标签： paper

深度学习同时被 2 个专栏收录

212 篇文章 5 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

自然语言处理

166 篇文章 4 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了微软邓力教授的研究，提出了一种端到端强化学习的方法来训练对话代理KB-InfoBot，该代理能从知识图谱中生成响应。研究揭示了传统goal-oriented对话系统的组成部分，包括语言理解、对话状态跟踪、对话规则和自然语言生成，并指出这些组件的独立训练和不可微问题。为解决这一问题，研究中将SQL查询替换为概率框架，以推断用户目标在KB实体上的后验分布。

摘要由CSDN通过智能技术生成

本文是微软研究软邓力老师的文章，构建了一种从知识图谱中形成response的聊天机器人KB-InfoBot，并且提出了一种端到端的增强学习训练方案。

（本文对于构建一个端到端的KB + task-oriented chatbot非常有启发和指导意义）

introduction

一个典型的goal-oriented（就是比如query一个人演的某年电影）一般由四个部分组成：

一，language understanding(LU)模块来预测用户目的以及抽取相关slots；
二，一个对话状态记录器来记录用户意图和对话历史；
三，一个对话规则来根据当前的状态选择下一步的系统行动；
四，natural language generator (NLG)来把对话行动转化为自然语言

有必要给对话规则以数据库里的真实世界的知识，之前的end-to-end系统通过构造一个symbolic query以及从数据库里取数据来实现这点，不幸的是，这样的操作让模型non-differentiable以及对话系统的各个模块分开被训练。

在我们的工作，我们将类SQL的查询替换为一个probabilistic framework for inducing a 后验分布 of the user target over KB entities，
我们从the belief tracker multinomials over attribute-values and binomial probabilities of the user not knowing the
value of an attribute来构造这个分布。