论文地址:https://arxiv.org/abs/1709.00513
这是2017年的一篇文章。在本文之前的监督学习的方法一般是通过最小化确定的损失函数来拟合学生和老师,本文通过cGANs来学习适合的loss,更好的进行知识的迁移。其训练过程如下:
Discriminator的更新过程如下:
但Discriminator只使用学生和老师的标签作为loss函数的输入会让训练不稳定且缓慢,为了解决这个问题,作者将Teacher和Student的输出的概率分布的vector同时作为loss函数的输入,需要注意这里用的是未加负号的Binary Cross-entropy,所以训练中对(5)式是最大化: