BERT家族：TinyBERT

最新推荐文章于 2024-06-08 10:01:17 发布

姆爷

最新推荐文章于 2024-06-08 10:01:17 发布

阅读量700

点赞数

分类专栏：预训练语言模型 BERT 文章标签：自然语言处理深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32223859/article/details/106351616

版权

BERT 同时被 2 个专栏收录

15 篇文章 1 订阅

订阅专栏

预训练语言模型

13 篇文章 1 订阅

订阅专栏

TinyBERT

论文：《TINYBERT:DISTILLINGBERTFORNATURALLAN-GUAGEUNDERSTANDING》

论文地址：https://arxiv.org/pdf/1909.10351

作者/机构：华科+华为诺亚方舟实验室

年份：2019.9

TinyBert通过对Bert 编码器中的Transformer进行压缩，使用两段式学习框架在精度允许范围内节约了计算资源和推理速度。其改进点如下：

（1）Transformer蒸馏法

为了在加快推理速度和降低模型大小的同时保持准确率，作者提出了一种新颖的 transformer 蒸馏法，这是为基于 transformer 的模型专门设计的知识蒸馏（knowledge distillation，KD）方法。

这样做的目的是：Bert类的预训练语言模型通常计算开销大，内存占用也大，因此很难在一些资源紧张的设备上有效执行。通过这种新的 KD 方法，LargeBERT 模型中编码的大量知识可以很好地迁移到小型 TinyBERT 模型中，这对计算资源紧张的设备上运行是友好的。

（2）两段式学习框架

除了提出新的 transformer 蒸馏法之外，研究者还提出了一种专门用于 TinyBERT 的两段式学习框架，从而分别在预训练和针对特定任务的具体学习阶段执行 transformer 蒸馏。

这样做的目的是：TinyBERT 可以获取 LargeBERT 的通用和针对特定任务的知识。

更多NLP相关技术干货，请关注我的微信公众号【NLP有品】

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
BERT家族：TinyBERT

TinyBERT论文：《TINYBERT:DISTILLINGBERTFORNATURALLAN-GUAGEUNDERSTANDING》论文地址：https://arxiv.org/pdf/1909.10351作者/机构：华科+华为诺亚方舟实验室年份：2019.9TinyBert通过对Bert 编码器中的Transformer进行压缩，使用两段式学习框架在精度允许范围内节约了计算资源和推理速度。其改进点如下：（1）Transformer蒸馏法为了在加快推理速度和降低模型大小的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。