蓝振忠,西湖大学助理教授
报告 | 蓝振忠
撰文 | 沈磊贤
我的报告主题为《预训练语言模型的前沿发展趋势》,主要从以下三个方面展开:
1、为什么全网络预训练模型如此重要?
2、为什么语言预训练模型诞生得如此之迟?
3、如何预训练一个有效的模型?
01
为什么如此重要?
全网络预训练模型目前在各个NLP项目中具有重要地位,之所以如此,是因为全网络的预训练相当于共享了大部分预训任务和下游任务的参数,跟以前的word2vector有明显的不同。
图1 预训练语言模型为NLP打开新局面
左图显示了深度学习技术在ImageNet数据集上不断取得突破的趋势。右图显示了在全网络预训练出来以后,机器对自然语言理解能力的不断提升的趋势。
我们看到这两个图上所显示的趋势相似之处,都是在一个大的技术突破之后在很短时间内有不断的提升。
具体来讲,右图显示的是机器对初中生和高中生的英文阅读理解的理解能力的展示,2018年以前机器基本上是不及格的状态;在预训练出来之后,每隔几个月都有一个大的突破,在2019年能我们能做到89.4,基本上是因为预训练的功劳。现在我们已经做到90+了。预训练语言模型在最新的研究和应用中表现出强大的语言理解能力,为自然语言处理打开了全新的局面,并推动了整个人工智能领域在预训练方法上的发展。
02
为什么如此之迟?
既然语言预训练模型很重要,那么为什么诞生得却如此之迟呢?
语言预训练模型诞生迟主要有两个原因:
一是因为相比于CV,NLP有太多的任务,所以很难把它整合起来,之前的研究大多都旨在为不同的任务设置不同的网络。直到后来的GPT/EMLO将各种任务放到了一起,是的我们可以用一个网络来解决大部分的问题。