预训练语言模型 | (1) 概述

 

自从Bert问世以来,预训练语言模型的各种变体层出不穷,在预训练语言模型专栏,我将参考一些资料,对一些主要的平时使用比较多的预训练语言模型做一些理论层面的整理。

至于预训练语言模型的应用,可以查阅我的文分分类和机器阅读理解相关专栏,上面结合代码和具体的任务,详细说明了如何把预训练语言模型应用到文本分类和阅读理解任务上。

全系列预训练语言模型的相关论文可以查看清华大学刘志远老师组整理的list:https://github.com/thunlp/PLMpapers。具体的模型细节,可以查阅list中的相关论文。

 

  • 简单概述

语言模型是机器理解人类语言的途径,17年的transformer是语言模型摆脱rnn,lstm建模的一次尝试,后续的bert则是大力出奇迹的代表,用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑,而xlnet将gpt和bert的优点结合在了一起,然后用更更大的数据吊打了bert。没过多久,bert的增强版roberta用更更更大的数据打败了xlnet。然而当bert的模型达到一定程度后,受到了硬件资源的限制,于是谷歌通过矩阵分解和参数共享压缩了bert的模型大小,因此当albert使用了和bert同样的参数量的时候,推理能力又上了一个台阶

接下来几篇博客,我将对一些主要的平时使用比较多的预训练语言模型做一些理论层面的整理,今后还会跟进预训练语言模型技术的发展,争取与时俱进。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值