DL-Paper精读：NAS-BERT

最新推荐文章于 2022-07-25 12:19:37 发布

星月野

最新推荐文章于 2022-07-25 12:19:37 发布

阅读量313

点赞数

分类专栏： paper阅读文章标签：机器学习人工智能算法深度学习网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/li6016265/article/details/118097133

版权

NAS-BERT是一种任务无关且可自适应大小的BERT压缩方法，利用神经架构搜索在预训练阶段进行模型压缩，以适应不同硬件设备和下游任务。通过设计多层链式结构的搜索空间，结合知识蒸馏和逐步缩减策略，实现了高效超网训练。实验表明，NAS-BERT在保持高性能的同时，能有效降低模型大小和延迟。

摘要由CSDN通过智能技术生成

NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression With Neural Architecture Search

https://zhuanlan.zhihu.com/p/382164328/edit#:~:text=NAS-BERT%3A%20Task,%E7%AE%97%E6%98%AF%E4%B8%80%E4%B8%AA%E7%BC%BA%E6%86%BE%E3%80%82

Backgroud

尽管BERT等一票预训练模型已经在NLP和CV等领域取得了瞩目的成就，但是他们依然受限于庞大的参数量和计算量，这制约了它们在下游任务及移动端场景的部署。因此，预训练模型的压缩工作至关重要。

Current Works and limits

目前常见的模型压缩方式，主要包括剪枝，量化，地址分解，蒸馏等，应用于NLP预训练模型的研究也已很多。但目前的工作一般都存在两个主要的问题：1、模型压缩大小固定，这导致它不能自适应地部署于各种不同内存或延时限制下的设备；2、目前的压缩工作一般都是基于某个特定下游任务的压缩，因此不具有较好的泛化性，此外，由于NLP领域下游任务较多，每个任务都进行针对性压缩的话过于繁琐。

Novelty

针对于以上两个问题，本文希望提出一种能够解决这两个问题的压缩方法：1、（Adaptive-size）能够包含多种不同的模型大小及延时，从而适应各

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DL-Paper精读：NAS-BERT

NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression With Neural Architecture Searchhttps://zhuanlan.zhihu.com/p/382164328/edit#:~:text=NAS-BERT%3A%20Task,%E7%AE%97%E6%98%AF%E4%B8%80%E4%B8%AA%E7%BC%BA%E6%86%BE%E3%80%82Backgroud尽管BERT等一票预训练模型已经在
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。