BERT模型蒸馏有哪些方法？

最新推荐文章于 2022-10-24 07:31:33 发布

PaperWeekly

最新推荐文章于 2022-10-24 07:31:33 发布

阅读量1.1k

点赞数 1

文章标签：机器学习人工智能深度学习神经网络算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/109039823

版权

©PaperWeekly 原创 · 作者｜蔡杰

学校｜北京大学硕士生

研究方向｜问答系统

我们都知道预训练模型的标准范式：

pretrain-利用大量的未标记数据通过一些自监督的学习方式学习丰富的语义和句法知识。例如：Bert 的 MLM，NSP 等等。
finetune-将预训练过程中所学到的知识应用到子任务中，以达到优异的效果。

预训练模型在各个领域虽然带来了巨大的提升，但是也有一些致命的问题：

预训练模型高计算复杂度-不可能在实时系统中运行。
大存储需求——预训练模型一般都很大，少则几百 M，大则几 G，无法在有限资源的设备上部署。

所以模型压缩和加速技术的研究迫在眉睫！

Logit Distillation

知识蒸馏最早是 Hinton 在 15 年提出的一个黑科技技术，核心思想是通过迁移知识，从而通过训练好的大模型得到更加适合推理的小模型。

论文标题：Distilling the Knowledge in a Neural Network

论文来源：NIPS 2014

论文链接：http://arxiv.org/abs/1503.02531

神经网络通常使用 “softmax” 输出层生成每个类别的概率：

输出层通过将与其他 logit 进行比较，以

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
BERT模型蒸馏有哪些方法？

©PaperWeekly 原创 ·作者｜蔡杰学校｜北京大学硕士生研究方向｜问答系统我们都知道预训练模型的标准范式：pretrain-利用大量的未标记数据通过一些自监督的学习方式学习丰富...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。