独家 | 基于知识蒸馏的BERT模型压缩

本文介绍了如何使用知识蒸馏对BERT模型进行压缩,详细探讨了相关研究,包括'耐心的知识蒸馏',并提及了在微软进行的相关工作。提到的重要论文包括Hinton等人关于知识蒸馏的工作,以及BERT、XLNet和RoBERTa等预训练模型的研究。
摘要由CSDN通过智能技术生成

640?wx_fmt=png

作者:孙思琦、成宇、甘哲、刘晶晶

本文约 1800字 ,建议阅读 5分钟

本文为你介绍“耐心的知识蒸馏”模型。

数据派THU后台回复“191010”,获取论文地址。

在过去一年里,语言模型的研究有了许多突破性的进展, 比如GPT用来生成的句子足够以假乱真[1];BERT, XLNet, RoBERTa [2,3,4]等等作为特征提取器更是横扫各大NLP榜单。但是,这些模型的参数量也相当惊人,比如BERT-base有一亿零九百万参数,BERT-large的参数量则高达三亿三千万,从而导致模型的运行速度过慢。为了提高模型的运行时间,本文率先提出了一种新的知识蒸馏 (Knowledge Distillation) [5] 方法来对模型进行压缩,从而在不损失太多精度的情况下,节省运行时间和内存。文章发表在EMNLP 2019。

具体来说,对于句子分类类型的任务,当普通的知识蒸馏模型用来对模型进行压缩的时候, 通常都会损失很多精度。原因是学生模型 (student model) 在学习的时候只是学到了教师模型 (teacher model) 最终预测的概率分布,而完全忽略了中间隐藏层的表示。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值