- 核心:Teacher-Student 机制
- 使用:1. Teacher 与 Student 的 softmax loss 求KL散度损失
- 2. 另一点很少有文章提到,利用蒸馏机制可以让Sutdent学习无监督的新样本,扩大数 据量
KL散度
KL散度,又叫相对熵,用于衡量两个分布(离散分布和连续分布)之间的距离。
设p(x) 、q(x) 是离散随机变量的两个概率分布,则 p对q 的KL散度是:
KLDivLoss
class KLDivLoss(_Loss):
__constants__ = ['reduction']
def __init__(self, size_average=None, reduce=None, reduction='mean'):
super(KLDivLoss, self).__init__(size_average, reduce, reduction)
def forward(self, input, target):