《自然语言处理实战入门》深度学习 ---- 预训练模型（ALBERT）原理简介

shiter

已于 2022-04-21 10:38:32 修改

阅读量738

点赞数

分类专栏：自然语言处理实战入门【Generative AI重制版】文章标签：自然语言处理深度学习 albert

于 2021-10-10 23:36:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyaninglm/article/details/120687041

版权

自然语言处理实战入门【Generative AI重制版】专栏收录该内容

129 篇文章 254 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

文章大纲

简介
albert 的使用
albert 的版本
- 1. 海量中文预训练 albert
- 2. google albert
参考文献

简介

bert 回顾

bert 两阶段模式：预训练 + 微调

BERT 的总体预训练和微调程序。除了输出层，在预训练和微调中都使用相同的体系结构。相同的预训练模型参数用于初始化不同下游任务的模型。在微调期间，所有参数都将进行微调。 [CLS]是在每个输入示例前添加的特殊符号，而[SEP]是特殊的分隔符（例如，分隔问题/答案）。

在这里插入图片描述

bert 的问题

1、内存限制和通信开销
2、模型退化

ALBERT (A Lite BERT)

bert 推出以来各种大体量的预训练模型层出不穷，经常是一个出来刷榜没几天，另外一个又出现了。BERT、GPT、XLNET等等都是代表人物。这些预训练模型们虽然一个比一个效果好，但是他们的体量都是非常大的，动不动就几千万几个亿的参数量，而且训练也非常困难。

新出的ALBERT就是为了解决模型参数量大以及训练时间过长的问题。ALBERT最小的参数只有十几M,

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。