知识蒸馏 (KD)作为一种模型压缩方法,通过使用较大模型的预测输出作为软标签目标来训练较小的模型,可在 Transformer 模型中使用特殊token进行蒸馏。
具有可泛化自蒸馏功能的掩码自动编码器用于皮肤病变分割https://link.springer.com/article/10.1007/s11517-024-03086-z
Medical & Biological Engineering & Computing ( IF 2.6 ) DOI: 10.1007/s11517-024-03086-z
TEDMAE框架:掩码自动编码器M