DistilBERT 论文笔记

shuaiZuJiaoFu

已于 2022-10-20 16:14:42 修改

阅读量477

点赞数 1

文章标签：深度学习人工智能自然语言处理

于 2022-10-20 15:04:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shuaiZuJiaoFu/article/details/127424689

版权

DistilBERT是BERT的一个轻量化版本，通过模型蒸馏技术，旨在保持高性能的同时减小模型大小和加快推理速度。文章详细介绍了蒸馏过程、DistilBERT的结构、初始化方法以及损失函数的设计，包括MLM、CE和Cos损失。实验结果显示，DistilBERT在精度上仅轻微下降，但在速度和参数量上有显著提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单位：HuggingFace
时间：2020.5
发表：NIPS2019
论文链接：https://arxiv.org/pdf/1910.01108.pdf

一、背景

1. 什么是distill（蒸馏）？

蒸馏简单的说是将大模型（teacher）的学习结果，作为小模型（student）的学习目标，意在小模型能学习到大模型的表示。

蒸馏这个方法的核心思想是：好模型的目标不是拟合训练数据而是学习如何泛化到新的数据。

所以蒸馏的目标是让学生模型学习到教师模型的泛化能力，理论上得到的结果会比单纯拟合训练数据的学生模型要好。

2. BERT有哪些短板？

从应用落地的角度来说，bert虽然效果好，但有一个短板就是预训练模型太大，预测时间在平均在300ms以上（一条数据），无法满足线上并发量要求高的业务需求。

二、DistilBERT, a distilled version of BERT

1. 作者的思路

之前的模型蒸馏本质上都是两个loss，即distillation loss和student loss

这样模型学到的都是精调后的知识，即模型都是任务相关的，作者想蒸馏出一个任务无关的BERT，这样通用性更强，在具体任务时做具体的精调即可。

2. 具体做法

I. 模型结构

教师模型采用预训练好的BERT-base，学生模型则是6层的transformer。

II. 学生模型初始化方法

采用了BERT-PKD提出的PKD-skip的方式进行初始化，即用BERT-base的第[2,4,6,8,10]层的参数作为学生模型的参数。

III. Loss的设计

损失函数最终有三个，具体为：

MLM loss

最低0.47元/天解锁文章

博客等级

码龄6年

7
原创

2
点赞

10
收藏

5
粉丝

关注

私信

热门文章

最新评论

ESimCSE 论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
DKT 论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
ContrastNet 论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
SimCSE 论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
ALBERT 论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。