西湖大学蓝振忠:预训练语言模型的前沿发展趋势

西湖大学助理教授蓝振忠探讨预训练语言模型的重要性,解释为何模型诞生较晚,以及如何有效预训练。全网络预训练模型在NLP任务中的影响力日益增长,模型规模、网络架构、目标函数和训练时长是关键因素。预训练方法的进步推动了人工智能领域的创新,尤其是在自然语言理解和生成方面。
摘要由CSDN通过智能技术生成

蓝振忠,西湖大学助理教授

报告 | 蓝振忠

撰文 | 沈磊贤

我的报告主题为《预训练语言模型的前沿发展趋势》,主要从以下三个方面展开:

‍1、为什么全网络预训练模型如此重要?

2、为什么语言预训练模型诞生得如此之迟?

‍3、如何预训练一个有效的模型?

01

为什么如此重要?

全网络预训练模型目前在各个NLP项目中具有重要地位,之所以如此,是因为全网络的预训练相当于共享了大部分预训任务和下游任务的参数,跟以前的word2vector有明显的不同。

图1 预训练语言模型为NLP打开新局面


‍左图显示了深度学习技术在ImageNet数据集上不断取得突破的趋势。右图显示了在全网络预训练出来以后,机器对自然语言理解能力的不断提升的趋势。

我们看到这两个图上所显示的趋势相似之处,都是在一个大的技术突破之后在很短时间内有不断的提升。

具体来讲,右图显示的是机器对初中生和高中生的英文阅读理解的理解能力的展示,2018年以前机器基本上是不及格的状态;在预训练出来之后,每隔几个月都有一个大的突破,在2019年能我们能做到89.4,基本上是因为预训练的功劳。现在我们已经做到90+了。预训练语言模型在最新的研究和应用中表现出强大的语言理解能力,为自然语言处理打开了全新的局面,并推动了整个人工智能领域在预训练方法上的发展。

02

为什么如此之迟?

既然语言预训练模型很重要,那么为什么诞生得却如此之迟呢?

语言预训练模型诞生迟主要有两个原因:


一是因为相比于CV,NLP有太多的任务,所以很难把它整合起来,之前的研究大多都旨在为不同的任务设置不同的网络。直到后来的GPT/EMLO将各种任务放到了一起,是的我们可以用一个网络来解决大部分的问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值