深度学习笔记之BERT(四)DistilBERT

最新推荐文章于 2025-03-06 14:57:18 发布

静静的喝酒

最新推荐文章于 2025-03-06 14:57:18 发布

阅读量1.2k

点赞数 15

分类专栏： BERT基础教程：Transformer大模型实战深度学习机器学习文章标签：深度学习 bert distilBERT模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34758157/article/details/144293093

版权

深度学习笔记之DistilBERT

引言

引言

本节将介绍一种参数、消耗计算资源少的 $\text{BERT}$ 改进模型—— $\text{DistilBERT}$ 模型。

回顾：BERT模型的弊端

虽然 $\text{BERT}$ 性能优秀并且对各类 $\text{NLP}$ 下游任务通用，但依然存在一些弊端：

在 $\text{RoBERTa}$ 模型中提到过下句预测策略( $\text{Next Sentence Prediction,NSP}$ )在训练任务过程中表现得并不优秀，并删除了该策略；
在 $\text{ALBERT}$ 模型中也提到过 $\text{BERT}$ 模型的参数量过大，从而消耗更多的时间和计算资源。

本节就从计算资源开始，介绍一种新的算法模式—— $\text{DistilBERT}$ ，一种基于 $\text{BERT}$ 的知识蒸馏版本。

什么是知识蒸馏

即便是使用预训练好的 $\text{BERT}$ 模型，我们在使用其执行下游任务时，依然需要消耗相当多的计算资源。例如：想要将一个模型迁移到更小的硬件上，例如手机等移动设备、笔记本电脑，它使用的计算资源、空间占用依然很高，计算效率较差。如果能够得到一个和预训练 $\text{BERT}$ 模型相差不大，但模型体量更小，参数更少、运行得更快、占用空间更少的模型，在使用过程中会更加方便。这体现了知识蒸馏的必要性。

什么是知识蒸馏呢 $?$ 它是指：基于一个已预训练好的模型作为教师模型，训练一个学生模型模仿教师模型，使学生模型的性能尽可能接近教师模型的过程。后续使用学生模型执行相关下游任务时，由于学生模型的体量更小，从而达到运行更快、占用空间更少的目的。

DistilBERT模型架构

基于上述理念， $\text{DistilBERT}$ 的模型架构表示如下：
distilBERT_structure
结合论文中作者的描述观察：
论文链接在文章末尾~

教师模型是一个 $\text{BERT-base}$ 模型 $(\text{param:110 M})$ ，它是由若干相互堆叠的注意力层构成。由于它已经是预训练好的，因而它并不是我们关注的重点；
对学生模型 $(\text{param:66 M})$ 的设计是：层内维度(神经元数量)与教师模型相同的基础上，将 $\text{Encoder}$ 层数量减半，并且在初始化过程中从教师的 $\text{Encoder}$ 层中每两层中选择一层作为学生对应 $\text{Encoder}$ 层的初始化。
整个 $\text{Inference}$ 过程中，教师模型没有参与；只有学生模型在反向传播过程中存在梯度更新。

那么如何实现将有效信息从教师模型蒸馏到学生模型呢 $?$ 这意味着模型的训练过程将不同于传统的训练过程，因为训练学生模型的主要目标是模仿教师模型，从而训练策略发生一系列变化。

softmax温度函数

在介绍 $\text{DistilBERT}$ 模型策略之前，先介绍一下 $\text{Softmax}$ 温度函数。它的函数表达式如下所示：
$\mathcal P_i = \frac{\exp (\mathcal Z_i / \mathcal T)}{\sum_{j} \exp (\mathcal Z_j / \mathcal T)}$

最低0.47元/天解锁文章

静静的喝酒

博客等级

码龄9年

295
原创

932
点赞

2175
收藏

1526
粉丝

关注

私信

热门文章

分类专栏

最新评论

贝尔曼最优方程(Bellman Optimality Equation)
果然昔: 整体的逻辑是对的，但是小细节错误太多了，比如s’写成了s，Π*写成了Π，大家自己看的时候要注意
策略梯度方法介绍——策略梯度定理推导过程
Yugang_Yang: 很好的文章，可惜被放在了csdn上
机器学习笔记之变分推断(五)重参数化技巧
CatCatDogDog2030: 另外请教一个问题：“Q是一个描述概率的函数，因此它的值域是( 0 , 1 ) “ Q不是pdf吗？概率密度函数? 比如p(z|x) 这个后验分布应该是概率密度函数？这样的话，值域就不应该是0到1以内呀？
机器学习笔记之变分推断(五)重参数化技巧
CatCatDogDog2030: 请教一个问题，重参数化技巧之后， logQ(Z∣ϕ) 这个公式是否包含ϕ这个变量和z这个变量？如果两个都包含的话，求对ϕ求梯度，既要考虑 logQ(Z∣ϕ) 公式本身包含的 ϕ 变量，还是隐式包含ϕ的z变量；但是我看推导过程中，只提及了包含ϕ的z变量，这样相当于说 logQ(Z∣ϕ) 这个分布的公式中，已经不直接包含ϕ这个变量? logQ(Z∣ϕ) 完全由z变量来描述分布?
机器学习笔记之变分推断(二)公式推导过程(基于平均场假设)
CatCatDogDog2030: 请教一个问题，为什么上一节说的是 "只能通过某些方法近似求解后验概率分布P ( θ ∣ X )" 而这一节是要近似Q(Z)≈P(Z∣X) ?

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

静静的喝酒 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。