这篇发布在ICLR 2020 上 名副其实的顶刊
看这个作者阵容也是十分的给力哈哈哈哈
确实很摘要
第一句话:
通常我们希望
将表征知识从一个神经网络转移到另一个神经网络。
其实 做蒸馏或者看蒸馏领域的 确实 是这种感悟 没毛病的
第二三两句:
在介绍 KD是什么东西
第四句话:
存在的问题:我们证明了这个目标忽略了教师网络的重要结构知识。
第五句话,第六句话:
解决方案
这激发了另一个目标,在该目标中,我们训练学生在教师数据表示中捕获更多信息。
其实也算想干什么 We formulate this objective as contrastive learning.
以及后面的 即为 实验的优秀性 但也看到了 SOTA
Introduction
第一段很正常,但是也指出了一个新的未探索的 跨模态领域的蒸馏
惊呆了 烙铁。我可以回答陈老师的问题了
真的是 好高级啊 只能说 牛死了
是什么意思嘞:原始的KD的目标函数完全分解的形式呢 不足以传递结构知识,即输出维度i和j的之间的依赖关系
这类似于图像生成的情况,由于输出维度之间的独立性假设,L2 目标产生模糊的结果。
这个比喻很贴切 或者 说引出问题 很高级
为了克服这个问题,我们希望一个捕获相关性和高阶输出依赖关系的目标。
为此,在本文中,我们利用对比目标
在这里,我们将它们适应从一个深度网络到另一个深度网络的知识蒸馏任务。
我们表明,在表示空间中工作很重要,类似于 Zagoruyko & Komodakis (2016a) 等最近的工作;Romero 等人。 (2014)。
当前对比的损失函数中存在的问题
然而,请注意,这些作品中使用的损失函数没有明确尝试捕获表示空间中的相关性或高阶依赖关系。
这不是偷懒啊 是因为 真的 很简练 就。。。。不需要多逼逼什么
主要是最后一段。。。。enmmmm