《自然语言处理实战入门》深度学习 ---- 预训练模型(ALBERT)原理简介


简介

bert 回顾

bert 两阶段 模式:预训练 + 微调

BERT 的总体预训练和微调程序。 除了输出层,在预训练和微调中都使用相同的体系结构。 相同的预训练模型参数用于初始化不同下游任务的模型。 在微调期间,所有参数都将进行微调。 [CLS]是在每个输入示例前添加的特殊符号,而[SEP]是特殊的分隔符(例如,分隔问题/答案)。

在这里插入图片描述

bert 的问题

1、内存限制和通信开销
2、模型退化

ALBERT (A Lite BERT)

bert 推出以来 各种大体量的预训练模型层出不穷,经常是一个出来刷榜没几天,另外一个又出现了。BERT、GPT、XLNET等等都是代表人物。这些预训练模型们虽然一个比一个效果好,但是他们的体量都是非常大的,动不动就几千万几个亿的参数量,而且训练也非常困难。

新出的ALBERT就是为了解决模型参数量大以及训练时间过长的问题。ALBERT最小的参数只有十几M,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shiter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值