ICLR 2023 | HomoDistil:蒸馏和剪枝在知识传递上的有机结合

HomoDistil是一种新的知识蒸馏方法,结合了剪枝技术,通过教师模型初始化学生模型并迭代剪枝,以保持预测差异,有效传递知识。该方法在预训练变压器模型的压缩中表现出优势,提高了学生模型的泛化性能。
摘要由CSDN通过智能技术生成

56b3ab3b6941cf8046cc75d8c9f376aa.gif

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩

17303fc8c3a6cac232f704d77915b891.png

论文标题:

HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers

论文链接:

https://arxiv.org/pdf/2302.09632.pdf

d93a639043dad4e5c399ebac634e56ea.png

动机&背景

随着预训练大模型规模的不断增加,任务特定蒸馏(下游微调蒸馏)的成本越来越高,任务无关蒸馏变得越来越重要。然而,由于教师模型的模型容量和表示能力远超学生模型,因此学生很难在大量开放域训练数据上模仿教师的预测。本文提出了同源蒸馏(Homotopic Distillation, HomoDistil)来缓解这一问题,该方法充分利用了蒸馏和剪枝的优势,将两者有机结合在了一起

具体来说,本文用教师模型初始化学生模型,以缓解两者在蒸馏过程中的容量和能力差异,并通过基于蒸馏损失的重要性得分的迭代剪枝,来逐步将学生模型修剪至最终想要的目标结构。在整个蒸馏+剪枝的过程中,教师和学生一直保持着较小的预测差异,这有助于知识更有效的传递。其核心动机如图 1 所示。

98757d1eece881c9f3a0595090c09ad0.png

▲ 图1. HomoDistil 动机说明(用剪枝给知识蒸馏做初始化,并迭代式地获得最终的学生模型结构)

76a3d1f033d6684af7ce78a7ecda8110.png

HomoDistil:同源任务无关蒸馏

如图 2 所示,本文所提出的 HomoDistil 先用教师模型初始化学生,并以类似 TinyBERT [1] 的蒸馏损失函数作为修剪的目标函数,在每次迭代中,根据重要性得分从学生中删除最不重要的神经元并用蒸馏损失指导学生的训练。在整个训练过程中不断重复此过程,直至学生达到目标规模。该方法可从「蒸馏损失函数」和「迭代剪枝细节」两部分进行介绍。

bc9b7baf212f7ad51475d31a31fe3897.png

▲ 图2. HomoDistil 方法的示意图,矩形的宽度表示层的宽度,颜色的深度反映训练的充分性。

2.1 蒸馏损失函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值