独家 | 基于知识蒸馏的BERT模型压缩

最新推荐文章于 2024-10-10 16:30:04 发布

数据派THU

最新推荐文章于 2024-10-10 16:30:04 发布

阅读量1.7k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/102513234

版权

本文介绍了如何使用知识蒸馏对BERT模型进行压缩，详细探讨了相关研究，包括'耐心的知识蒸馏'，并提及了在微软进行的相关工作。提到的重要论文包括Hinton等人关于知识蒸馏的工作，以及BERT、XLNet和RoBERTa等预训练模型的研究。

摘要由CSDN通过智能技术生成

640?wx_fmt=png

作者：孙思琦、成宇、甘哲、刘晶晶

本文约 1800字 ，建议阅读 5分钟 。

本文为你介绍“耐心的知识蒸馏”模型。

数据派THU后台回复“191010”，获取论文地址。

在过去一年里，语言模型的研究有了许多突破性的进展，比如GPT用来生成的句子足够以假乱真[1]；BERT, XLNet, RoBERTa [2,3,4]等等作为特征提取器更是横扫各大NLP榜单。但是，这些模型的参数量也相当惊人，比如BERT-base有一亿零九百万参数，BERT-large的参数量则高达三亿三千万，从而导致模型的运行速度过慢。为了提高模型的运行时间，本文率先提出了一种新的知识蒸馏 (Knowledge Distillation) [5] 方法来对模型进行压缩，从而在不损失太多精度的情况下，节省运行时间和内存。文章发表在EMNLP 2019。

具体来说，对于句子分类类型的任务，当普通的知识蒸馏模型用来对模型进行压缩的时候, 通常都会损失很多精度。原因是学生模型 (student model) 在学习的时候只是学到了教师模型 (teacher model) 最终预测的概率分布，而完全忽略了中间隐藏层的表示。

<

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。