Multi-Agent Task-Oriented Dialog Policy Learning with Role-AwareReward Decomposition 记录

摘要:许多研究已经使用强化学习去训练对话策略,并在这些年取得了巨大成果。一种常规方法是部署一个用户模拟器去获得大量的模拟用户经验给强化学习算法。然而,模拟一个逼真的用户模拟器是举有挑战性的。一个基于规则的模拟器需要大量的对于复杂任务的领域经验,数据驱动的模拟器需要大量数据,而且甚至不知道怎么评价一个模拟器。论文提出了多智能体对话策略学习,这样避免了显式的构建用户模拟器,并且将系统和用户都当作对话的智能体。两个智能体互相交互,同时学习。这种方法使用了actor-critic框架以便预训练并且提升延展性。论文也提出了角色感知奖励分解的混合价值网络,以整合任务导向对话中每个agent的角色特定领域知识。结果表明,论文的方法可以成功地同时构建一个系统策略和一个用户策略,两个代理通过会话交互可以获得较高的任务成功率。

对话策略已经广泛的被规划为强化学习问题(将用户作为交互的环境),然而强化学习需要大量的交互用于训练,所以这很花费时间。最常见的解决方法是建立一个智能体作为用户模拟器,以模拟离线场景中的人类行为。

建立一个可信赖的用户模拟器是比较有挑战性的。随着对话系统解决复杂任务的需求激增,建立一个完全基于规则的用户模拟器是很具有挑战的(这还需要大量的专家经验)。数据驱动的用户模拟器在近期的研究中已经被提出,但是这需要大量的手工标注数据,大多数模拟器也被当作一个固定的环境。更进一步,没有一个评价用户模拟器好坏的准则(很难定义用户模拟器和真实的用户表现有多接近)

在这篇论文中,提出了MADPL,用户被当作另一个对话智能体而不是用户模拟器。用户和系统之间是合作交互方式,两个智能体同时训练。两个对话智能体互相交流,合作达成目标,所以他们不需要额外的专家领域经验。(剩下的介绍就是模型结构介绍,Actor-Critic,CTDE)。需要注意虽然是合作关系,但是两个智能体的作用是不同的。只有用户智能体知道用户目标,只有系统智能体可以访问数据库。用户智能体需要有组织的,完整的表达自己的需求,系统需要立刻并精确的回复有用信息。所以这并不适合应用简单的self-play强化学习(将两个智能体当成同一种智能体)。为了解决这个问题,系统和用户在MADPL中被当作不对称的智能体。我们介绍了HVN,它将奖励分成两部分,一部分是针对特定目标的奖励,一部分是整体奖励。为了评估提出的措施,我们在多领域,多意图,任务导向对话集,MultiWOZ上进行实验。数据集上包含高维状态空间和动作空间,每一轮做多重决策。

相关工作:

1、多智能体强化学习(略)

2、任务导向对话中的用户建模

3种主流方式:

基于规则的用户模拟器

从对话数据建立用户模拟器,近期使用变分等级的seq2seq框架编码用户目标和系统回复,生成用户的回复。

使用基于模型的策略优化,其中包括了世界的可微分模型,已经用户和系统之间的交流假设,但这仍然需要真实的用户或者用户模拟器给模型学习。

除了部署用户模拟器,少部分方法从语料库中学习。有的模型可以迭代的训练2个策略。

剩下的看这个吧,感觉写的挺好的Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward Decomposition 笔记_chouchoubuchou的博客-CSDN博客

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值