这篇论文是自己理解的,不足之处还请各位大佬指出。
Idea:不使用元学习方法,而是使用模型的融合去训练。
基于距离的分类器对于小样本学习有很高的方差,这可以通过使用分类器的集合来显著减少。 传统的预测diversity是通过数据增广和不同的随机初始化实现的,而本文通过网络合作去实现。
然后再把网络的集合通过蒸馏方式转换为单一的网络去测试。
通过在原来的损失函数添加一个惩罚项:diversity使用cosine相似度;cooperation使用对称的KL散度。
为了增加ensemble的鲁棒性,在合作的前提下,为了增加预测的多样性,提出了三个技巧:每次迭代随意丢弃某几个网络;每个网络采用dropout;对网络输入的图像采用不同变换方式。
也测试了跨领域学习,从mini到CUB的测试。