Teaching Machines to Converse--阅读笔记1 摘要及介绍

论文探讨了开放域对话生成中的问题,如无趣回答、人格一致性和长期对话成功率。通过使用互信息、强化学习和对抗学习方法,试图提升机器生成的对话质量,使其更接近人类水平。同时,提出了构建能提问和从反馈中学习的交互式问答系统,以改善机器人的对话能力。
摘要由CSDN通过智能技术生成

论文来源:斯坦福博士李纪为博士毕业论文
论文链接

Abstract

常见对话系统面临的挑战:

  • 鲁棒性、可扩展性和域适应性等:很多系统是从很小的手写标记/范本数据集中学习规则,这样既昂贵又难以扩展到其他领域中。
  • 对话系统越发复杂:它们通常包括很多互相分开的复杂模块,使得它们无法适应收集到的越来越多的数据。

神经网络的出现:

  • 优势:端到端神经网络提供了可扩展和语言独立的框架,在语义理解上为自动回复的产生提供了可能性。
  • 挑战:
    • 它们倾向于无趣的回答,如:我不知道你在说什么;
    • 它们经常缺乏像人类一样的人格特性,导致产生的回复经常是不一致的;
    • 他们大多数情况仅仅是被动地回答问题,而没有能力去主导对话。

本文尝试解决这些问题:

  • 在开放域对话生成系统中的几个问题:
    • 使用互信息避免无趣泛化的回答;
    • 赋予机器人格,解决用户一致性问题;
    • 用强化学习手段,增加长期对话成功率;
    • 使用对抗学习方法推动机器生成与人类水平相同的回复。
  • 尝试开发交互问答系统:
    • 让机器具有提出问题的能力:通过问问题,扩大自己的知识库而完善自己;
    • 提出交互式的模型,在线与人类进行交流,并通过与人类交流得到的反馈,提高自己的水平。

Introduction

语言形式的对话一直是人类的商标。 这是我们人类获得的第一批技能之一, 这种能力是有效的社会合作,是组织多人的必要条件。

在人工智能领域,模仿人类交谈能力的尝试可以追溯到人工智能的早期阶段。

图灵测试:测试一台机器的一般智能水平。在图灵测试中,一台机器被要求与人交谈。 机器的智能水平取决于机器如何能够欺骗人类评估者,使其相信机器是基于文本响应的人类。 如果人类的评估者无法区分机器和人类的区别,那么就说机器已经通过了图灵测试,这意味着人工智能的高度智能化。

自从提出了图灵测试的想法以来,虽然有各种各样的尝试, 但是我们还没有通过测试。

在本节中,我们将简要回顾几十年来提出的对话系统:

  • 聊天系统(The Chit-chat Style System);
  • 基于框架的目标导向系统;
  • 交互式问答系统(QA)。

我们将讨论他们成功应用的案例、利弊以及为什么仍然无法通过图灵测试。

本论文的主要研究重点是如何改进聊天系统和交互式问答系统。

A Brief Review of Existing Dialogue Systems

The Chit-chat Style System
以聊天为导向的对话系统旨在吸引用户,安慰他们,提供精神支持,或只是与用户聊天,无论他们想谈论什么话题。 机器人首先需要了解其对话伙伴所说的内容,然后根据这个历史记录产生有意义和一致的反应。

现有的聊天系统主要分为以下三个子类:

  • 基于规则的系统(The Rule-based Systems);
  • 基于IR的系统(The IR-based Systems);
  • 基于生成的系统(The Generation-based Systems)。

The Rule-based Systems

使用规则是产生对话话语的最有效方法之一。 通常,消息输入首先基于一组预定义规则进行评估,例如关键字查找字典,if-else条件或更复杂的机器学习分类器。 在评估规则条件之后,将执行相关的操作,诸如输出存储器中的话语,操纵输入消息或选择一些相关的历史上下文。

历史上最着名的以规则为基础的对话系统之一是ELIZA(Weizenbaum,1966)。 ELIZA通过首先基于手工制作的关键字词典从真人中搜索输入文本中存在的关键字来进行操作。如果找到关键字,则会应用规则来处理和转换用户的原始输入并将其转发回给用户。否则,ELIZA要么一般性回答,要么复制对话历史中的一个句子。其中的回答是仅基于前一句子产生的。

ELIZA的扩展包括PARRY(Parkinson et al,1977),也被称为“ELIZA with attitude”,模拟精神分裂症患者。 PARRY依赖于全局变量来跟踪情绪状态。

在ELIZA和PARRY之后提出了各种聊天系统,例如Eugene Goostman, Jabberwacky, Cleverbot,Alice,AIML。

ELIZA式的系统被认为是发展现代对话系统的重要里程碑。更有趣的是,一些系统似乎能够欺骗一些人类评价者,相信他们正在与一些特定场景下的真实人物交谈 。另一方面,它们的缺点是显而易见的:基于规则的系统主要依赖于一组预定义的规则。随着系统变得越来越复杂,这些规则的数量会骤增;基于规则的系统不具备理解人类语言的能力,也不知道如何产生有意义的自然语言话语。因此,他们只能进行很肤浅的谈话。

The IR-based Systems

基于IR的方法依赖于信息检索或最近邻技术。给定历史输入和训练语料库,系统复制训练语料库的响应。响应选择过程通常基于以下两个标准的组合:与所选响应相关的历史应与输入对话历史类似,并且所选响应应与输入对话历史在语义上相关。诸如语义相关性测量(例如,向量空间模型或TF-IDF),页面排序风格相关性传播模型或个性化技术的各种排序方案可以被整合成单个排名函数,并且具有最高排名分数的响应将被选中。

基于IR的模型的优点:

  • 模型相对于基于生成模型是容易实现的;
  • 回答总是语法的(因为回答是从训练集中复制的);
  • 回答通过对排名功能的操纵(例如,添加规则,增加或减少某些特定功能),开发人员可以相对较好(和直接)控制他或她想要查看的响应。

基于IR的模型的缺点:

  • 缺乏处理自然语言多样性的灵活性,处理重要语言特征(如上下文结构或协同性)的能力;
  • 缺乏辨别不同输入语境之间细微语义差异的能力。

The Generation-based Systems

基于生成的系统通过标记生成句子标记,而不是复制来自训练集的响应。这个任务可以被形式化为一个输入 - 输出映射问题,在给定历史对话话语的情况下,系统需要输出一个相同和有意义的字序列。

这个任务是由Ritteretal(2011)首先研究的,他将响应生成任务定义为一个统计机器翻译问题。使用IBM模型来学习源词和目标词之间的词映射规则(如图1.1所示)和基于短语的MT模型用于词语解码。
这里写图片描述

基于MT的系统的缺点:

  • 单独构建多个不同组件的基于短语的MT模型的复杂性;
  • IBM模型在处理消息响应之间隐含的语义和语法关系方面的固有的不灵活性对:与通常在源句子中的单词或短语与目标句子中的另一个单词或短语之间直接映射的MT不同,在响应生成中,映射大部分超过单词级别,并且需要整个句子的语义。由于这个原因,基于MT的系统只能处理少数情况,如图1.1所示,字级映射非常清晰,但是一旦输入语句的语义变得复杂,通常无法解决这种情况输出不连贯的甚至不合语法的反应。
  • 此外,基于MT的系统缺乏在多情境下利用信息的能力。

神经模型提供了可伸缩性和语言无关性的承诺,以及隐式地学习对之间的语义和语法关系的能力,并以常规SMT方法或基于IR的方法不可能的方式捕捉上下文相关性。由于这些优点,神经生成模型能够产生更具体,一致和有意义的对话反应。

另一方面,各种重要的问题仍然没有解决:现在的系统往往会产生平淡无奇的反应,比如“我不知道你在说什么”,这阻碍了谈话;很难赋予对话系统一致的身份或角色元素(背景事实或用户简介)、语言行为或交互风格;目前的系统往往只关注一次转一圈,最多两次,因为很难赋予系统长期的计划能力,进行流畅,连贯,有意义的多回合对话。本文试图解决这些问题。

The Frame-based Dialogue Systems

Bobrow等人首先提出了基于框架的系统。模型对话由框架引导,代表了对话内不同层次的信息。

最简单的基于框架的系统是一个有限状态机,它根据框架向用户提出一系列预定义的问题,如果客户提供了答案,则转向下一个问题,如果答复不是答案则忽略客户。更复杂的体系结构允许系统和用户之间的对话的主动性在各个点上移动。这些系统依赖于预定义的帧,并要求用户填充帧中的时隙,如果所有的帧时隙已经被填满,则任务完成。

基于框架的系统的局限性在于,对话生成过程完全由满足时隙的需求来指导。系统无法决定进程或会话状态,例如客户是否拒绝了某个建议,而提出了一个问题,系统不知道应该继续提建议还是回答问题,因此无法采取正确的行动。

为了克服这些缺点,设计了更复杂的基于状态的对话模型。基于状态的对话系统基于两个关键概念:

  • 对话状态(DIALOGUE STATE),其表示当前对话的进程,包括上下文信息,说话者的意图等;
  • 对话操作(DIALOGUE ACTS),其表征对话话语的类别。

对话ACT的选择是基于对话当前所处的对话状态,而该系统的关键组成部分是学习状态和要采取的动作之间的最佳映射,这能够最大化对话成功。

强化学习方法,如MDPs或POMDP广泛用于学习这种基于定义对话成功的外部奖励的映射。

神经网络模型的最新进展提供了更多的力量和灵活性来跟踪对话状态,以生成对话状态和话语之间的映射。

基于框架的系统已经成功地用于各种应用,例如预订机票,预订餐馆等,其中一些已经在我们的日常生活中被使用。

基于框架的系统最大的优点是系统的目标是明确定义的,预定义的框架给出了对话应该如何进行的非常明确的指导。另一方面,它的局限性很明显:

  • 基于框架的系统严重依赖复杂的手工模式或规则,而这些规则是昂贵的;
  • 当系统适应新的领域或旧的领域变化时,规则必须被重建,使得系统难以扩展。

更广泛地说,它并没有涉及人类交谈中复杂的语言特征,如语境连贯性、词语使用(包括语义和句法)、个性化,因此不能捕捉人类的复杂性和有趣的会话本质。

The Question-Answering (QA) Based Dialogue System

基于QA的对话系统与开发自动化的个人助理系统(如苹果的Siri)密切相关。对话代理需要回答客户关于不同主题的问题,如从数据库或者文本中回答天气条件,交通拥堵,新闻,股价,用户时间表,零售价格等问题。基于质量保证的对话系统因此与基于文本或基于知识库的问题回答中的广泛工作有关。

基于质量保证的对话系统和仿真(factiod)的质量保证系统之间的主要区别在于基于质量保证的对话系统是交互式的:基于质量保证系统需要处理不同类别的交互相关问题的能力去取替仅仅回答一个单一的问题的能力,例如要求澄清问题,根据人的反馈调整答案,遇到时自我学习新的问题或概念等。为了解决这些问题,系统需要根据当前的对话状态采取适当的措施,类似于基于状态的对话系统所解决的关键问题。

机器人如何聪明地与人类互动,以及如何通过这些相互作用来改善自身,还没有得到充分的研究。

在现有文献中缺乏开发互动代理的另一个重要方面是,优秀的代理人应该有能力从在线反馈中学习:在错误时适应模型,在人的反馈是积极的时候加强模型。目前还没有任何工作讨论如何通过包含各种反馈信号来有效地改善自身的在线反馈。本文试图解决这些问题。

Thesis Outline

本文主要针对聊天系统和交互式质量保证系统所涉及的问题。首先,我们探讨如何构建一个能够与人类进行有趣,有意义,连贯,一致和长期对话的引人入胜的闲聊式对话系统。更具体地说,对于聊天系统:

  • 使用互信息来避免沉闷和一般的反应;
  • 解决用户一致性问题,以避免来自同一用户的不一致响应;
  • 开发强化学习方法,以促进对话的长期成功;
  • 使用对抗性学习方法来产生与人类生成的反应无法区分的机器反应;

其次,我们探讨一个bot如何通过与人类的在线互动来最好地改善自己,这使得聊天机器人系统变得互动。

  • 我们设计一个环境,为代理人提供询问人类问题的能力,并学习何时以及要问什么;
  • 我们通过在线方式与人类互动来培训谈话代理人,通过与人交流并从他们所犯的错误中学习,机器人得以改进。

Open-Domain Dialogue Generation

Mutual Information to Avoid Generic Responses

一个有吸引力的反应生成系统应该能够输出多样和有趣的符合语法的、连贯的反应。然而,在实践中,神经交谈模式表现出倾向于产生沉闷,琐碎或不交付的反应,通常涉及高频短语“我不知道”或“我没事”。这种行为归因于在会话数据集中“我不知道”的通用响应的相对频率,与其他更具内容或更具体的替代响应的相对稀疏性相反。看来神经模型,通过优化给定输入/源/消息的输出/目标/响应的可能性为“安全”响应分配高概率。

问题在于如何克服神经模型对普通人的偏好。直观地说,我们不仅需要捕获消息响应的依赖性,还需要反过来,消息将被提供给给定响应的可能性。尽管“我不知道”的回答对于大多数与问题有关的信息的回答的可能性很高,但是反过来一般是不正确的,因为我不知道是否可以对所有事情做出反应,使得很难猜测原始的输入题。

我们建议通过使用最大互信息(MMI)作为衡量输入和输出之间相互依赖性的优化目标,而不是从传统MLE目标函数中的源到目标的单向依赖。我们提出了使用MMI作为目标函数的神经生成模型的实际训练和解码策略。我们证明,使用MMI可以显着减少通用响应序列的比例,并且可以通过BLEU和人类评估测得的建议模型显着提高性能。

Addressing the Speaker Consistency Issue
当前的对话系统中一个严重的问题是缺乏说话者的一致性:如果一个人向机器人提出几个问题,那么不能保证机器人的答案是一致的。这是因为响应是根据预先训练的模型分配的可能性来选择的,该模型没有模型说话者一致性的能力。

在作者16年的工作中,解决了一致性的挑战,以及如何赋予数据驱动系统模拟人类行为所需的连贯“角色”,无论是作为私人助理,个性化的虚拟角色代理还是游戏角色。

首先,我们将PERSONA定义为在对话交互过程中扮演或执行的人工代理人。角色可以被看作是身份元素(背景事实或用户简介),语言行为和交互风格的组合。角色也是适应性的,因为代理人可能需要根据交互的需求向不同的对话者呈现不同的方面。我们将人物角色作为嵌入,并在SEQ2SEQ框架内探索两种角色模型,即单扬声器SPEAKER MODEL和二元SPE​​AKER-ADDRESSEE MODEL。扬声器模型将扬声器级矢量表示集成到SEQ2SEQ模型的目标部分中。

类似地,说话者 - 收件人模型通过构建来自其个体嵌入的相互作用表示并将其并入到SEQ2SEQ模型中来编码两个对话者的相互作用模式。这些角色向量在人与人之间的对话数据上进行训练,并在测试时使用,以产生个性化的响应。

Fostering Long-term Dialogue Success
当前的对话生成模型是通过使用最大似然估计(MLE)目标函数来预测给定会话环境中的下一个单个对话轮来进行训练的。但是,这并不模仿我们人类的说话方式。在人类的日常交谈中,每个人类的对话事件都包含数十次,甚至数百次对话,而不仅仅是一次。人类在控制谈话中的信息流动方面很聪明,以便谈话的长期成功。目前的模式无法处理这种长期的成功,导致重复的和一般的反应。

我们需要一个对话框架,能够:

  • 整合开发者定义的奖励,更好地模仿chatbot开发的真正目标;
  • 在持续的对话中模拟生成的响应的长期影响。

为了实现这些目标,我们借鉴了在MDP和POMDP对话系统中广泛应用的强化学习的见解。我们引入一个神经强化学习(RL)生成方法,它可以优化系统开发人员设计的长期奖励。我们的模型使用编码器 - 解码器架构作为其骨架,并模拟两个虚拟代理之间的对话以探索可能行为的空间,同时学习最大化期望的奖励。

我们定义简单的启发式近似来描述好的对话:好的对话是具有前瞻性或交互式性,信息丰富且连贯。编码器 - 解码器RNN的参数定义了由所有可能的话语组成的无限动作空间上的策略。代理通过使用策略梯度方法优化长期的开发者定义的奖励,而不是在标准的SEQ2SEQ模型中定义的MLE目标,来学习政策。

因此,我们的模型整合了SEQ2SEQ系统的强大功能,以便学习强化学习的优势,从而优化话语的长期目标,从而学习话语的构成语义。实验结果表明,我们的方法促进了更持久的对话,并产生了比使用MLE目标训练的标准SEQ2SEQ模型更多的交互式响应。

Adversarial Learning for Dialogue Generation
生成开放式域名对话旨在根据输入的对话历史记录产生有意义和一致的对话响应。

目前的系统使用模仿学习或模仿学习的变化来近似这样一个目标:根据对话历史预测人类对话中的下一个对话话语。尽管取得了成功,但由于这个过于简化的培训目标而出现了许多问题:答复非常单调乏味,重复性和短视。

解决这些问题需要回答一些基本的问题:定义一个理想对话的关键方面是什么,如何定量度量它们,以及如何将它们整合到一个机器学习系统中:一个好的对话模型应该产生与之无法区分的话语人类对话。这个目标提出了一个类似于图灵测试的培训目标。

我们在计算机视觉中使用对抗训练的思想,我们共同训练两个模型,一个生成器(以神经SEQ2SEQ模型的形式),它定义了产生对话的概率序列以及将对话标记为人工生成或机器生成的鉴别器。这个鉴别器类似于图灵测试中的评估器。我们把这个任务作为一个强化学习问题,在这个问题中,机器产生的话语的质量是通过使鉴别者相信它是一个人造的话语来衡量的。鉴别器的输出被用作对发生器的回报,推动它产生与人类生成的对话无法区分的话语。

实验结果表明我们的方法比使用MLE目标函数训练的标准SEQ2SEQ模型产生更多的交互式,有趣和非重复性响应。

Building Interactive Bots for Factoid Question-Answering

Learning by Asking Questions
对于当前的聊天机器人系统,当机器人遇到诸如未知表面形式(短语或结构),语义复杂的句子或未知的单词等令人困惑的情况时,代理将做出(通常很差的)猜测或将用户重定向其他资源(如Siri的搜索引擎)。相比之下,人类可以通过提问来适应多种情况:一个好的会话代理应该有这个能力与客户交互。

在这里,我们试图通过使机器人具有提问能力来弥合人与机器端到端学习系统之间的差距:

  1. 机器人对对话伙伴文本的表面形式有一定的理解,例如问题的表述;
  2. 机器人在推理方面存在问题,例如,未能检索并将相关知识连接到手头的问题;
  3. 机器人首先缺乏回答问题的必要知识 - 也就是说,机器人访问的知识源不包含所需的信息。

上述所有情况都可以通过与对话伙伴的互动来解决。这种互动可以用来学习在未来的对话中表现更好。

  • 如果机器人在理解老师的问题上有困难,他们可能会要求老师澄清这个问题。
  • 如果机器人不知道从哪里开始,他们可能会要求教师指出哪些已知的事实是最相关的。
  • 如果机器人根本不知道所需信息,他们可能会要求教师告诉他们所缺少的知识,写下来供将来使用。

我们通过在离线监督设置和在线强化学习设置中询问问题以及如何选择在何种情况下提出问题来探索机器人如何从交互中受益。在这两种情况下,我们发现学习系统通过与用户交互而得到改善。

Dialogue Learning with Human-in-the-Loop
一个好的会话代理应该有能力从老师的在线反馈中学习:在犯错的时候调整自己的模型,在老师的反馈是积极的时候加强模型。这在机器人最初是在一个固定的合成的,领域特定的或预先建立的数据集上以监督的方式进行训练的情况下特别重要,然后在发布之后将暴露于不同的环境(例如,更多不同的自然语言与真人交谈时的话语使用,不同的分布,特殊情况等)。

最近的研究主要集中在训练标记数据的固定训练集上的机器人,但很少关于机器人如何通过与人类的在线交互来改善。在沟通过程中,人们(而不是机器)的语言学习发生了,而不是从标记的数据集,因此这是一个重要的研究课题。

在这里,我们通过以在线方式通过与教师互动来训练一个机器人来探索这个方向。在强化学习的总体框架下,通过老师(对话伙伴)对机器人对话行为的反馈,任务形式化。对话是在回答问题的背景下进行的,而机器人必须由一个简短的故事或一组事实来回答老师提出的一系列问题。

我们考虑两种类型的反馈:

  • 在传统的增强学习中显式的数字奖励;
  • 在人类对话中更自然的文本反馈。

我们考虑两种在线培训情景:

  • 在任务建立时使用对话模拟器,以便于分析和实验的重复性;
  • 教师是使用Amazon Mechanical Turk的真人。

我们探索在线学习中涉及的重要问题:
- 例如如何使用最少量的教师反馈最有效地训练机器人,机器人如何利用不同类型的反馈信号,如何避免在不同类型的在线学习中出现不稳定等陷阱通过数据平衡和探索的反馈,
- 以及如何通过数据批量使真实人类的学习变得可行。

我们的研究结果表明,建立一条从固定数据训练模型开始的管道是可行的,然后从与人类的相互作用中学习以提高自身。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值