【KD】KD 在bert上的应用

静静喜欢大白

已于 2022-03-28 13:35:29 修改

阅读量178

点赞数 1

CC 4.0 BY-SA版权

分类专栏： KD论文阅读文章标签： KD

于 2022-03-27 17:23:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lj2048/article/details/123776869

KD论文阅读专栏收录该内容

53 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨了BERT模型的知识蒸馏过程，包括模型蒸馏原理、BERT蒸馏技巧和经典模型如Distilled BiLSTM、BERT-PKD、DistillBERT等的介绍。文章详细阐述了如何进行蒸馏，以及蒸馏过程中关键参数的选择，提供了蒸馏代码实战的指导，是理解并实践BERT模型蒸馏的全面指南。

简介

目录：

蒸馏是什么？怎么蒸BERT？
BERT蒸馏有什么技巧？如何调参？
蒸馏代码怎么写？有现成的吗？

今天rumor就结合Distilled BiLSTM/BERT-PKD/DistillBERT/TinyBERT/MobileBERT/MiniLM六大经典模型，带大家把BERT蒸馏整到明明白白！

模型蒸馏原理

Hinton在NIPS2014[1]提出了知识蒸馏（Knowledge Distillation）的概念，旨在把一个大模型或者多个模型ensemble学到的知识迁移到另一个轻量级单模型上，方便部署。简单的说就是用小模型去学习大模型的预测结果，而不是直接学习训练集中的label。

在蒸馏的过程中，我们将原始大模型称为教师模型（teacher），新的小模型称为学生模型（student），训练集中的标签称为hard label，教师模型预测的概率输出为soft label，temperature(T)是用来调整soft label的超参数。

蒸馏这个概念之所以work，核心思想是因为好模型的目标不是拟合训练数据，而是学习如何泛化到新的数据

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

静静喜欢大白 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。