对话系统 | (10) 《Deal or No Deal? End-to-End Learning for Negotiation Dialogues》

原文地址

EMNLP2017,论文地址

在这里插入图片描述
EMNLP 2017 这篇论文给出的对话场景叫谈判协商(Negotiation),并且他们认为谈判协商既包含合作,又包含对抗竞争。用他们的实验来理解这样一个场景,首先,这个谈判协商旨在两个人之间进行,A 和 B。总共有一定数量的几种物品,A 和 B 需要通过谈判,去分享这些物品。重点在于,同一种物品,对于 A 和 B 的价值是不一样的,且他们无法知晓这个物品对于对方的价值如何。而 A 和 B 都希望尽可能地通过谈判使得自己最后得到的物品总价值更高。

分析这样一个场景就可以发现,对于 A 和 B 来说,对方的 reward function 是不得而知的,他们只能通过合作与竞争最大化自己的 reward。同时,场景设置为,两个人都必须同意当前的策略才算协商成功,才可以获取对应的 reward,否则就会认定双方的 reward 都是0(也就是谈判失败)。这样就使得整个问题非常适合用增强学习的思想去解决。

为了简化问题,作者又给了几个设定。(1)对于每个用户 A or B,所有物品的总价值相等,i.e. 都是10;(2)每个物品的价值都是非负的;(3)有些物品对于 A 和 B 的价值都是正数。这些设定的结果是,(1)不可能 A 和 B 同时取得最大价值;(2)没有一个物品对于双方都是无价值的,所以会存在竞争。如,在上面的截图中,总共考虑了三种物品,书1本,帽子2顶,篮球3个。当经过10轮协商还没法达成共识,双方就只能抱憾而归。
在这里插入图片描述
为了使用纯神经网络的端对端学习,作者将物品和价值设定,编码成由整数组成的列表(list)。比如这样的三种物品的设定,就是六个整数,分别代表物品和其对应的价值。这样,在每次学习过程中,都先输入这样的整数列表,再输入对话文本(utterances)。所以,对于每一个用户(agent)A or B,他们的列表输入是不同的,如上图。

但是经过简单的和最直接的有监督学习他们发现,这样得到的模型,会过于容易“妥协”(compromise),在谈判协商结束后得到的物品总价值往往比较低。经过分析,他们认为这样的结果主要归咎于,有监督的学习旨在模拟人类行为(语言),用基于 RNN 的方法进行的有监督学习,主要还是基于最大化似然(likelihood)的语言模型。这是因为,当以这样的似然为指标时,接受当前的谈判条件(对方提出的一个条件)会比提出一个新条件“风险”更低——拥有更大的似然(安全回答)。但是往往提出新条件,才会获得更大的价值。

究其原因,这还是因为评价指标是最大化似然而不是最大化自己的最终获取价值。所以他们希望将 reward 直接加入学习目标,并使用了两种训练方法,一种叫 self-play,类似于 AlphaGo 的左右互搏;另一种叫 Dialogue Rollouts,类似于 MCTS,也是 AlphaGo 中的价值估计前的蒙特卡洛搜索树。前者很好理解,后者其实就是说,在每次估计 reward 时,都将 Dialogue “模拟完整”,类似于 beam search 一样,最终获取一个,如果我这样提出条件,可能最终能得到多少总价值的预判。
在这里插入图片描述
说完了全部的实验设定,终于到了实验结果和分析结论部分。这也是媒体之前过分夸大的部分。首先一个最激动人心的实验结果就是,这篇论文首次让基于增强学习的模型超过了有监督学习的模型,并且超了一大截。不过基于上述的分析,我觉得这个结果是显然的。
在这里插入图片描述
第二点是,他们发现,基于增强学习的模型,也就是目标更明确的模型,会在谈判协商时更激进或者更坚持。但是这样会导致不太好的结果,就是当这样的模型与真实人类进行谈判时,人类可能会因为对方的过分激进而觉得无法沟通,愤而离去,导致谈判破裂。但是过分激进也不是一定不好,有时候用户也是可以接受的,比如如下对话(这里值得警惕的也是,模型并不是有意学会重复提出相同要求,这也是模型训练的锅):
在这里插入图片描述
第三个比较吸引眼球的结论就是他们发现模型有时候学会了欺诈,就是反正对方也不知道我到底在不在乎某一个物品(明明这个物品对我来说价值为0),但是我先装出一副我对这个感兴趣的样子,然后你说不行,我再提出放弃这个东西转而要别的东西(这些东西才是真正有价值的),这时候就比较容易谈判成功。见下面这个例子:
在这里插入图片描述
尽管作者把它当成一个主要结论和卖点,我个人还是认为这纯属是偶然出现的现象。这就跟随机出现了一个恰巧被我们人类过度解读的案例一样,机器不知道自己在干嘛,人类却开始恐慌以为已经能被机器欺诈了。

相关论文

《Learning Symmetric Collaborative Dialogue Agents with Dynamic Knowledge Graph Embeddings》. ACL 2017.

《Deep Reinforcement Learning for Inquiry Dialog Policies with Logical Formula Embeddings》. arXiv preprint 2017.

《Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning》. ICCV 2017 (oral).

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值