NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression With Neural Architecture Search
Backgroud
尽管BERT等一票预训练模型已经在NLP和CV等领域取得了瞩目的成就,但是他们依然受限于庞大的参数量和计算量,这制约了它们在下游任务及移动端场景的部署。因此,预训练模型的压缩工作至关重要。
Current Works and limits
目前常见的模型压缩方式,主要包括剪枝,量化,地址分解,蒸馏等,应用于NLP预训练模型的研究也已很多。但目前的工作一般都存在两个主要的问题:1、模型压缩大小固定,这导致它不能自适应地部署于各种不同内存或延时限制下的设备;2、目前的压缩工作一般都是基于某个特定下游任务的压缩,因此不具有较好的泛化性,此外,由于NLP领域下游任务较多,每个任务都进行针对性压缩的话过于繁琐。
Novelty
针对于以上两个问题,本文希望提出一种能够解决这两个问题的压缩方法:1、(Adaptive-size)能够包含多种不同的模型大小及延时,从而适应各