斯坦福SAIL负责人Christopher Manning:语言理解是人机灵魂的桥梁

自然语言处理是人工智能的重要领域,伴随着2020年的到来,我们也正翘首以盼这个领域将发生哪些重要变化。为此我们特别推荐斯坦福大学人工智能实验室负责人Christopher Manning去年10月底在北京智源大会上的主题演讲《Recent Breakthroughs in Natural Language Processing》。在演讲中,Christopher Manning 介绍了他对自然语言处理技术的理解以及相关研究的最新进展,这对于我们展望未来的自然语言技术将提供十分有益的参考。

 

Christopher Manning认为,机器对语言的理解是实现人机协作的关键,伴随着深度神经网络模型等的应用,自然语言理解技术已经借助对话系统、虚拟助手、机器翻译等广泛应用于多种商业场景;在学术领域,近年来预训练语言模型领域已经取得了重要突破,包括Christopher Manning团队的ELECTRA预训练模型,它通过采用“双向语境”学习模式,实现了比谷歌BERT-Large 模型更高的性能,更少的算力。

 

下面是Christopher Manning演讲的精彩要点。

 整理:王凯

编辑:王炜强

01

机器的语言理解能力是人机协作的基石

Christopher Manning认为,语言是人与人沟通交流的重要媒介,它表达了人的思想意识。我们要让机器去了解人类沟通的语言,让机器能够像人类那样流畅地进行沟通,这样才能让机器更好地辅助人类工作。虽然现在的计算机和手机功能强大,但是对于一些年幼的、年老的、教育程度较低的人来说,复杂的操作使他们对这些先进的计算机和手机望而却步。如果人类与机器之间可以用语言沟通,这些难题会迎刃而解。

正因如此,智能语音的发展相当迅速。根据Gartner发布的Competitive Landscape 2018,2020年会有40%的用户会和一些支持人工智能技术的UI界面进行交互。Christopher Manning指出,从技术层面来讲,我们所熟知的深度学习最早就是在语音识别上做出突破。2010年,Dahl等人率先把深度神经网络模型用于大规模语音识别任务,并在2012年使语音识别的错误率降低了33%。2017年,Saon等人用深度神经网络模型使语音识别的错误率降低了71%。而且随着时间推移,语音识别的最小错误率正不断被降低,如图1所示。

图1 语音识别错误率不断降低

而伴随着智能语音的高速发展,人们在使用手机时,也开始希望以语音作为主要的输入方式。Christopher Manning举了一个Siri应用的例子(如图2所示),当我们向iPhone的智能语音助手Siri询问“最近,世界杯中女足半决赛的最终比分是什么?”时,她能准确回答“尼日利亚队以1比0的比分战胜了瑞典队。”但有时我们向Siri提问,她做出的回答与我们的期望相差较远。

 图2  与Siri对话

Christopher Manning 认为这种情况下,语音识别部分往往并没有太大问题,问题主要来源于语言理解部分。她虽然听懂了我们说的是哪些词语,但是不懂我们想表达什么意思。据Christopher Manning归纳,语言理解的复杂性来源于很多方面:第一,语言本身有一定的模糊性,很难被准确地定义和量化;第二,语言理解需要根据上下文进行推理,上下文的相关性和推理的递归性增加了语言理解的难度;第三,语言表达往往是被限定在特定的社会背景之下的,相似的表达在不同的社会背景下有着截然不同的含义。举例来说,一方面,一个事物可以用不同的词语来表示,当我们想表达“可乐”这个事物时,我们可以用“Coke”、“pop”、“soda”、“soft drink”、“beverage”等词语;另一方面,一个词语在不同场景下有着不同的含义,当我们讲到词语“pop”时,我们能联想到的事物有“流行音乐”、“可乐”、“爆炸”等。当然上述原因也只是冰山一角,语言理解的复杂性还来源于更多细小的方面:例如在社交媒体上,人们使用的语言往往不遵循标准的语言规则,而且会不断创造一些新的词语;伴随着当今世界信息量增长迅速,词语在新知识的支撑下会有更丰富的内涵。

 

接下来,Christopher Manning介绍了在过去十年中,我们用深度神经网络模型来理解词语义的主要方法,即用向量表示词语。那么,我们如何得到词语到向量的映射呢?利用词语的分布特性。换句话说,是利用数据集中所有包含该词语的上下文信息得到该词语对应的向量。例如,我们现在有语料“Any devices with a web browser, from laptops and tablets tosmart phones.”、“Users candownload it for home computers or laptops from Microsoft Update Website”里,当生成词语“laptops”的向量时,向量应该包含上述所有词语的信息。因此,在这个高维向量空间中,我们可以用向量的相似性度量词语的相似性。相似词语的向量在高维空间中的距离往往更近,各类词语的向量往往会分别形成自己的一个类簇。至此,向量就可以代表词语被输入到复杂的神经网络系统中了。

 

02

自然语言处理技术的商业进展

Christopher Manning认为将词向量引入深度神经网络,使得自然语言技术在近几年取得了令人惊喜的进步,已经被广泛地用在商业场景中,包括舆情分析、客户体验理解、客户服务支持、神经机器翻译等。

 

首先来看舆情分析,也就是根据语料判断某个人表达的是积极的、消极的、还是中性的观点。假设词袋里面的高频词语包含有“loved”、“great”、“impressed”、“entertaining”等,这些词看起来似乎都是赞扬的态度。但是事实并非如此,原句之一是“Withthis cast, and this subject matter, the movie should have been funnier and moreentertaining”。很显然,这句话是批评的态度,从中我们可以看出情感分析的复杂和微妙。

 

客户服务支持。我们通过打造对话机器人以帮助销售。线上零售商ASOS的聊天机器人Enki是一个非常成功的案例。Enki相当于线上销售人员,它用对话的方式为客户服务,例如根据客户的需求向客户推荐商品。Enki为ASOS带来了35%的客户增长量、300%的订单增长量、250%的广告支出回报率的增长量。

 

神经机器翻译。在2014年,Google第一次实现了神经机器翻译。神经网络模型使得机器翻译的表现有了很大的进步。到了2017年以后,几乎所有提供机器翻译服务的传统公司都在用神经机器翻译,包括SYSTRAN、百度、腾讯、Google、微软等。除此之外,神经机器翻译对商业也有很好的促进作用,比如eBay把自己的机器翻译技术由统计方法升级到神经翻译后,其销售额提升了10%。

03

预训练语言模型的突破

接下来,Christopher Manning 着重介绍了预训练模型的进展,认为近两年自然语言处理在这方面取得了非常重大的突破。2018年初,fast.ai率先提出预训练模型ULMFit,它主要是使用了维基百科上包含1亿个词的本文数据集在1个GPU day下对神经网络模型进行预训练。在运用到具体的任务上时,它通过加载预训练参数,把其作为神经网络模型参数的初始值,并用目标任务的小规模数据集对参数进行微调。实验结果表明,这种方法的表现优于随机初始化神经网络模型的参数值。

 

随后,在2018年后半年至2019年上半年,OpenAI提出了GPT和GPT-2,Google提出了BERT。这三个预训练模型最显著的变化是预训练使用的数据集规模和计算量有了大幅度的增长。GPT使用的数据集规模是8亿个词,计算量是240个GPU days;BERT使用的数据集规模是33亿个词,计算量是256个TPU days;GPT-2使用的数据集规模是400亿个词,计算量是2048个TPU days。之后,陆续又有一些新的预训练模型被提出,例如XL-Net、RoBERTa。目前,BERT等预训练模型主要使用Transformer模型作为其基础神经网络框架。Transformer模型是Ashish Vaswani等人在2017年提出的基于Attention机制的神经网络框架,是并列于CNN模型和RNN模型的一种新的特征提取模型。Transformer模型的框架如图3所示。

图3  Transformer模型框架

所有上述这些预训练模型本质上都是为了获取表现更好的语言模型,这些语言模型的核心任务是在特定上下文语境下预测未知的词是什么。例如,已知前文为“The students opened their”,那么下一个词可能是“books”、“laptops”、“exams”、“minds”等。这些语言模型需要在已知“The students openedtheir”的条件下,分别计算下一个词是“books”、“laptops”、“exams”、“minds”等的概率。以GPT-2为例,在已知前文的前提下,它可以生成较为流畅的文本,如图4所示。

图4 GPT-2的文本生成结果

要想准确地度量语言模型的优劣,光进行定性分析是不够的,Christopher  Manning介绍了Alex Wang等人提出的GLUE标准,这是一种通用的语言模型评价标准,主要评价语言模型的语言理解推理能力,会涉及到语言可接受性判断、语句相似性判断、语言推理等任务。

图5 主流预训练模型的GLUE指数

图6 部分预训练模型的GLUE指数和FLOPs指数

图7 部分预训练模型的GLUE指数和FLOPs指数

图8 部分预训练模型的GLUE指数和FLOPs指数

从图5的实验结果中我们可以观察到,不断推陈出新的预训练模型的GLUE指数在持续上升,这表明预训练模型显著提升了语言模型的表现。但是要想全面地评价一个模型的价值,光考虑模型表现是不够的,还要考虑模型的计算量。图6的实验结果表明,虽然BERT-Large的GLUE指数相比于ELMo提升较多,但是BERT-Large的计算量比ELMo高60倍左右。类似的,图7的实验结果表明,RoBERTa的计算量比BERT-Large高16倍左右。图8的实验结果表明,ALBERT的计算量比RoBERTa高10倍左右。

图9 单向语言模型

图10 双向语言模型

因此,Christopher Manning希望学术界能提出一些预训练模型,既能有不错的表现,同时又只需要合理的计算量。以往的预训练模型一共分为两大类,一类是“单向语言模型”,另一类是“双向语言模型”。如图9所示,“单向语言模型”是利用前文已知的词语预测下一个未知的词语,代表有ULMFit、ELMo、GPT等;如图10所示,“双向语言模型”是利用掩膜把文本中的部分词掩盖掉,用剩余的词预测被掩盖掉的词,代表有BERT、XLNet、RoBERTa等。鉴于实验结果表明,一般情况下“双向语言模型”的表现更好,所以Christopher Manning组的Kevin Clark等人在“双向语言模型”基础上,提出了预训练模型ELECTRA。ELECTRA的算法不是简单地用掩膜把原始文本中的部分词掩盖掉,而是用一些合理的其他词把原始本文中的部分词替换,然后判断处理后的文本中哪些词是原始词,哪些词是被替换后的词。这种方法被称为“替换令牌检测”,如图11所示,生成器模块用于做词替换,判别器模块用于判断词是否被替换。从图12的实验结果中我们可以发现,ELECTRA相比于之前的预训练模型,可以同时做到表现的提升和计算量的减少。Christopher Manning指出,近期学术界在语言模型表现上的提升主要受益于硬件计算能力的极大提升,然而一个真正有价值的预训练模型应该是像ELECTRA这样,可以同时兼顾表现的提升和计算量的减少。

图11 ELECTRA模型框架

图12 ELECTRA与其他预训练模型的GLUE指数和FLOPs指数

 

04

自然语言处理技术的四个额外思考

在演讲的最后,Christopher Manning提出了四个自然语言处理技术的相关思考。

  • 第一,无监督学习在自然语言理解相关的任务上表现较好。因为自然语言的学习本质上就应该是一种独立观察、独立发现、独立理解的过程,这与计算机视觉等其他方向有所不同。

  • 第二,已标注的语言数据不应该被大量使用。因为语言模型可以在语言数据中挖掘更丰富的知识,而不仅仅是标签信息,大量的标签信息会导致语言模型的学习能力无法充分利用。

  • 第三,挖掘语言结构应该是一个正确的努力方向。因为基于上下文语境的词语表示学习已经从统计关联方法转变为“语言探索方法”,而“语言探索”的一个重要内容就是语言结构。目前在这方面,Christopher Manning组的Kevin Clark等人已经对BERT学习到的语言语法知识做了一定的研究。

  • 第四,目前的自然语言处理技术也许可以类比于儿童的语言学习过程。其中比较重要的一点是,任何语言的学习都需要一定的基础知识,相似的,预训练模型可以提升语言模型的表现。

 

结语

Christopher Manning的演讲可以说对自然语言处理的现状做了一个通俗易懂的综述,我们可以清晰地看到自然语言处理近年来的突破和深度学习的崛起密不可分的,鉴于深度学习本身面临着“可解释性”等瓶颈亟待突破,以及多模态技术等正方兴未艾,所以我们有理由相信,自然语言处理的技术和商业潜力远未充分挖掘,在可预见的未来,它将面临一片更加广阔无垠的蓝海。

- 往期文章 -

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值