独家 | 用spaCy蒸馏BERT模型

本文介绍了如何使用spaCy对BERT进行模型蒸馏,以达到与BERT相近的性能,尤其是在情感分析任务中。通过模型蒸馏,蒸馏后的spaCy模型在六种语言的情感分析上表现几乎与BERT相当,但参数显著减少,适用于资源有限的部署场景。
摘要由CSDN通过智能技术生成


作者:YVES PEIRSMAN

翻译:詹荣辉

校对:闫晓雨

本文约2800字,建议阅读7分钟

本文为大家介绍了用spaCy对BERT进行模型蒸馏,其性能也能接近BERT。

Photo on Blog

序列化和反序列化

迁移学习是自然语言处理领域最有影响力的最新突破之一。在其发布不到一年的时间里,谷歌的BERT及其后代(RoBERTa,XLNet等)主导了大多数NLP排行榜。虽然将这些庞大的模型投入生产可能令人头疼,但存在各种解决方案来显著减小其尺寸。在NLPTown,我们成功地应用了模型蒸馏技术来训练spaCy的文本分类器,使其在产品评论的情感分析方面的表现与BERT几乎一样优秀。

 

最近,自然语言处理的标准方法发生了巨大变化。直到一年前,几乎所有NLP模型都是完全从头开始训练的(通常经过预训练的单词嵌入除外),而如今,最保险的方法是下载诸如BERT这样的预训练模型,并对其进行微调以适应特定的NLP任务。因为这些迁移学习模型已经学习到了大量未标记的文本,所以它们已经获得了许多有关语言的知识:它们了解单词和句子的含义,共指,语法等。令人兴奋的是,像BERT这样的模型具有如此众多的参数,它们相当缓慢且占用大量资源。至少对于某些NLP任务,调BERT就像杀鸡用牛刀一样。

 

大锤模型

大多数迁移学习模型都很庞大。BERT的基本模型和多语言模型都具有12层,每层隐藏层的神经元大小为768,并具有12个自注意力头——总参数不少于110M。BERT-large拥有高达340M的参数。尽管如此,BERT与更近期的模型相比还是相形见绌,例如具有665M参数的FacebookXLM和具有774M的OpenAI的GPT-2。显然,朝着更大模型的发展将持续一段时间。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值