预训练语言模型 | (1) 概述

最新推荐文章于 2024-07-25 17:15:45 发布

CoreJT

最新推荐文章于 2024-07-25 17:15:45 发布

阅读量2.2k

点赞数 2

分类专栏：预训练语言模型文章标签：预训练语言模型概述

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sdu_hao/article/details/104189186

版权

预训练语言模型专栏收录该内容

6 篇文章 11 订阅

订阅专栏

自从Bert问世以来，预训练语言模型的各种变体层出不穷，在预训练语言模型专栏，我将参考一些资料，对一些主要的平时使用比较多的预训练语言模型做一些理论层面的整理。

至于预训练语言模型的应用，可以查阅我的文分分类和机器阅读理解相关专栏，上面结合代码和具体的任务，详细说明了如何把预训练语言模型应用到文本分类和阅读理解任务上。

全系列预训练语言模型的相关论文可以查看清华大学刘志远老师组整理的list：https://github.com/thunlp/PLMpapers。具体的模型细节，可以查阅list中的相关论文。

简单概述

语言模型是机器理解人类语言的途径，17年的transformer是语言模型摆脱rnn，lstm建模的一次尝试，后续的bert则是大力出奇迹的代表，用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑，而xlnet将gpt和bert的优点结合在了一起，然后用更更大的数据吊打了bert。没过多久，bert的增强版roberta用更更更大的数据打败了xlnet。然而当bert的模型达到一定程度后，受到了硬件资源的限制，于是谷歌通过矩阵分解和参数共享压缩了bert的模型大小，因此当albert使用了和bert同样的参数量的时候，推理能力又上了一个台阶

接下来几篇博客，我将对一些主要的平时使用比较多的预训练语言模型做一些理论层面的整理，今后还会跟进预训练语言模型技术的发展，争取与时俱进。

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。