DL-Paper精读：MobileBERT

最新推荐文章于 2023-04-21 21:28:32 发布

星月野

最新推荐文章于 2023-04-21 21:28:32 发布

阅读量342

点赞数

分类专栏： paper阅读文章标签：网络深度学习人工智能机器学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/li6016265/article/details/115842779

版权

MobileNERT: a Compact Task-Agnostic BERT for Resource-Limited Devices

https://arxiv.org/abs/2004.02984

Background

BERT在NLP领域的地位是举足轻重的，其预训练模型，在多种下游任务的迁移工作中都能给出非常好的效果。但于此同时，BERT也受困于其庞大的模型参数和较慢的运行速度，尤其是在于一些资源受限的移动端部署任务中，BERT的实际应用是非常受限的。

目前，针对BERT的压缩研究工作已有很多。比如distill BERT等工作，通过知识蒸馏，来获得一个高精度的小模型。但是这些工作一般都是基于具体下游任务场景的（“task-specifically”），这些工作的一般流程是首先将预训练的BERT模型在具体任务中进行fine-tune，然后再进行蒸馏来获得小模型。该过程是比较耗时且繁琐的，不如直接来fine-tune一个任务无关（“task-agnostic”）的小的预训练模型。但是如果直接预训练一个较窄或较浅的BERT，又会造成较严重的精度损失，无法达到原始BERT的精度。

Novel points

在预训练的阶段来进行知识蒸馏，获得一个压缩版的小BERT(m

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DL-Paper精读：MobileBERT

MobileNERT: a Compact Task-Agnostic BERT for Resource-Limited Deviceshttps://arxiv.org/abs/2004.02984BackgroundBERT在NLP领域的地位是举足轻重的，其预训练模型，在多种下游任务的迁移工作中都能给出非常好的效果。但于此同时，BERT也受困于其庞大的模型参数和较慢的运行速度，尤其是在于一些资源受限的移动端部署任务中，BERT的实际应用是非常受限的。Related work and t
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。