​NeurIPS 2022 | 知识蒸馏造成了样本不均衡问题?

本文分析了知识蒸馏过程中存在的样本不均衡问题,指出教师模型的预测概率分布不平衡,影响了知识的高效传递。通过引入逆概率加权蒸馏(IPWD)方法,利用倾向得分来调整样本权重,从而改善知识蒸馏的效果。实验结果显示,IPWD在多个数据集和任务上均表现出优于传统知识蒸馏方法的性能。
摘要由CSDN通过智能技术生成

b1c8f1925f25ca4d504644d79bdde486.gif

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩

5ba3bd004ed9d22ed74e371221e548e2.png

论文标题:

Respecting Transfer Gap in Knowledge Distillation

论文链接:

https://arxiv.org/pdf/2210.12787.pdf

2944e20b560ab2b487dd674ba4bef166.png

引言

知识蒸馏(KD)[1] 是指将知识从教师模型转移到学生模型,以提高学生模型性能的一种模型压缩方法。一个普遍的直觉是,一个更强大的教师应该会教出一个表现更好的学生。然而,最近的研究发现,大模型不一定是好教师 [2],早停或更小模型尺寸的教师反而能使学生获得更好的表现。

本文从域迁移的视角探究和分析了这一现象。作者认为 ground-truth(分类损失)和教师预测(蒸馏损失)的知识来自不同领域,其中存在着被过往方法忽视的转移差距。Ground-truth 所蕴含的知识所在的域可定义为“人类域(human domain)”,教师预测所蕴含的知识所在的域可定义为“机器域(machine domain)”。

通常来讲,数据集的构建会考虑类别样本的均衡问题,以 CIFAR100 为例,它包含 60000 张图像和 100 个类别,每个类别分别有 500 张训练图像和 100 张测试图像。

因此,人类域的知识在类别间是均衡的,即满足 (独立同分布)假设。而实验发现,教师预测的概率分布在类别间是不平衡的,无论是“强”还是“弱”的教师,由于转移差距的存在,教师预测尾部的类别的知识传递受阻

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值