Gavin老师Transformer直播课感悟 - 基于Transformer轻量级高效精确的Conversational Representation对话系统ConveRT解密(一)

一、概述

        本文围绕下面这篇论文来分析基于Transformer的对话系统ConveRT(Conversational Representations from Transformer的缩写)背后的机制,特别是,它是如何实现一个高效和准确的对话系统。

        对于现实世界AI对话系统来说,使用BERT之类的预训练语言模型的结果并不理想,因为存在计算模型笨重,训练速度慢,训练成本昂贵等缺点。论文提出的ConveRT这种对话系统模型,是一个能够满足以下要求的对话任务预训练框架:

-effective

-affordable,意指训练成本不高

-quick to train,训练速度快

ConveRT在预训练时使用了基于Retrieval的响应选择任务(response selection task),通过在dual-encoder中有效利用了量化技术和subword级别(如通过wordPiece算法实现)的参数化来构建一个轻量化的高效的模型。目前对于系统响应选择任务来说,常用的方法有三种:End-to-End,Modular,Retrieval。目前对于业务对话系统来说,一般会采用Modular的方式,而在内部实际上也会使用到Retrieval。

        从训练效果看,使用对话历史来延展上下文(multi-context)能够产生更好的表现。另外,这种dual-encoder产出的预训练的表示(pre-trained representations)还可以被迁移到意图分类任务。ConveRT的训练速度比标准的语句encoders或者之前的一些dual encoders快很多。另外ConveRT模型具有更小的尺寸和优秀的表现,这使它在AI对话系统方面具有可移植性和可伸缩性。

      ConveRT在各种响应选择任务中都表现很好,而且模型更紧凑,如采用单一上下文的ConveRT只有59MB,而使用了multi-context的ConveRT只有73MB。

下图是ConveRT dual-encoder模型的单一上下文(single context)架构图:

模型的内部是Transformer层,使用了两个不同的前馈神经网络层(FFN):

  1. Feed-forward 1是标准的FFN层
  2. Feed-forward 2包含了3个全连接的非线性的前馈神经网络层,之后紧跟一个线性层来输出hx和hy,需要注意的是,这里的左右两个feed-forward 2网络不共享参数,而两个feed forward 1网络共享参数。

下图是ConveRT dual-encoder模型的多个上下文(Multi-context)架构图:

左边部分显示了immediate context和它相邻的response之间的交互,即hx和hy;右边部分显示了response和来自对话历史的自response往前追溯10个对话上下文的交互,即hy和hz。这里的Transformer层也使用了在单一上下文环境里使用的标准的Transformer架构,feed-forward 2的使用方式与单一上下文架构的一样,”mean”这个框表示对两个上下文hx和hz简单取平均值。

二、模型介绍

        对话系统通常是协助用户完成预定的任务,如订餐馆,订酒店,订机票等等,并且能进一步用于旅游信息咨询,语言学习,娱乐与健康等,它也是很多智能助手工具的核心组件,如Siri,Alexa,Google Assistant等。数据驱动的面向任务的对话系统要求领域相关并打了标签的数据,如意图注解,明确的对话状态管理,以及实体识别,这就使对话系统在可维护性和可伸缩性方面会面临很大的挑战。基于预训练模型的迁移学习提供了一个方向,即减少训练模型所需的标签数据。

        在NLP研究领域,预训练模型使用基于语言模型(LM)的学习目标是比较普遍的做法。当谈到对话系统时,response selection提供了一种更适合的预训练任务用于学习表示,而这种表示(representations)封装了对话的提示或者线索信息,所谓封装(encapsulate),是基于”response selection”这样一个训练目标,通过上下文和response之间的交互作用来调整神经网络,从而用神经网络来封装对话的数据信息。这样的模型能够通过使用大规模的无标签的自然语言对话数据进行预训练。Response selection也可以被直接应用到基于Retrieval的对话系统中。

1.Response selection

        Response selection是这样一项任务,即基于给定的对话历史或者说上下文,从中选择最合适的响应。这项任务是基于Retrieval的对话系统的核心,典型的做法是,在一个联合的语义空间里对上下文和responses的集合进行编码,然后通过使用”query representation”(使用context vector做查询)来对每一个候选response的编码进行匹配,从而取得相关度最好的response作为系统的响应。这里有两个关键点:

-以通用领域为目标,使用大规模无标签的数据集来预训练模型

-使用任务相关的有限数据对预训练模型进行微调(fine-tuning)

        在对话领域,使用Dual encoder架构来对response selection进行预训练是比较普遍的,有的研究成果显示,标准预训练语言模型架构在以“retrieval response”作为训练目标时的表现不及dual encoder。

2. 可伸缩性和可移植性

        预训练模型的一个基本的问题是它们拥有大量的参数,无论对于训练还是模型运行来说计算成本都是很高的。如此高的内存使用和计算需求阻碍了快速部署模型,以及可移植性和可伸缩性等。这就需要通过更有效的预训练和微调让预训练模型变得更加紧凑。通过使用蒸馏技术,量化相关的训练,权重修剪等可以达到缩小模型的效果。

        如下表所示,基于更紧凑的dual encoder架构和标准的embedding模型在尺寸上的比较,可以看出,ConveRT更加紧凑,此外,这种轻量化设计允许保留其它的参数用于改善dual encoder架构的表达能力,从而改善迁移到其它对话任务的对话表示学习能力:

3. 多上下文建模

        ConveRT突破了单一上下文的限制,指只使用immediate context来查找response,这里提出的multi-context dual encoder模型组合了immediate context和对话历史而形成multi-context,并保留了模型紧凑的特点。此外,训练结果表明,ConveRT模型学习的语句编码可以被迁移到其它任务,从试验结果看,基于三个评价数据集在意图分类任务方面表现很好。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值