【distillation】shrinkTeaNet:Million-scale Lightweight Face Recognition via Shrinking T-S Networks

最新推荐文章于 2020-03-08 19:46:42 发布

猫猫与橙子

最新推荐文章于 2020-03-08 19:46:42 发布

阅读量1.3k

点赞数

分类专栏：论文分享人脸识别模型压缩文章标签： face recognition distillation

本文链接：https://blog.csdn.net/qq_22764813/article/details/91822173

版权

论文分享同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

人脸识别

9 篇文章 1 订阅

订阅专栏

模型压缩

5 篇文章 0 订阅

订阅专栏

论文完整题目：shrinkTeaNet:Million-scale Lightweight Face Recognition via Shrinking Teacher-Student Networks

论文链接：https://arxiv.org/abs/1905.10620v1

作者的动机：性能好的人脸识别网络由于其庞大的参数和复杂的网络结构比较困难，作者想要得到一个小型但是精度又还可以与大网络差不多的小网络模型。然后作者就提出了ShrinkTeaNet框架，同时引入了一种新的loss函数：Angular Distillation Loss。

作者做的贡献主要有以下几点：

1）提出了Angular Distillation Loss，与L2 loss相比较，Angular的限制更加“softer”，使得student网络更加灵活的翻译嵌入层的信息；此外，因为从teacher继承的采样分布可以帮助student网络更加鲁棒的使用学到的信息，甚至是目标类别发生改变的时候；

2）提出了一个新的shrinkTeaNet框架，可以有效的在每个阶段蒸馏teacher的信息；

3）评估结果显示了小尺度和大尺度基准上都有提升；

作者提出的方法：

作者先引入蒸馏过程当中最关心的两个问题：

1）如何描述被蒸馏的知识；2）如何更好的在teacher网络和student网络之间有效的迁移信息。

在teacher（T）网络中 $I \mapsto Z$ ，S网络中 $I \mapsto Z$ ,代表输入图像隐射到高位嵌入式空间，函数和函数有个子函数i和i:公式如下：

：代表输入图像； $\Theta ^{t}$ 和 $\Theta ^{s}$ 分别代表T网络与S网络的参数，模型蒸馏的目标就是将T的知识蒸馏到有限容量的S模型中，可以使S可以学习到T网络的潜在领域；通常达到这种目的需要S在学习过程中由T监督，然后一步步的比较他们二者的输出。

是分别是T网络和S的转换函数，代表了转换特征的差值，通过最小化这个差值，可以将T网络信息传递给S网络，使得T和S可以嵌入类似的潜在域；

接下来就该关心如何设计使得这两部分挑选出有用的信息，然后无损的传递这些信息；

3.1 从T的超空间蒸馏知识

表1为之前的研究方法;

Softmax Loss Revisit

常用的分类loss函数：softmax loss，对每张图的公式如下：

代表类别数量，代表输入图像正确类别的标签，特征 $F^{_{n}^{s}}$ 和权重Wc，角度变成唯一的分类标准,若权重Wc作为类别c的代表，loss最小化意味着每个类别样例要求分布在类别代表拍的四周，那么类别代表就有最小的角度差距（minimal angular difference）。这在测试过程中，在输入图像特征提取和每个类别的代表使用决定它们输入同一个类别；

pytorch代码：

#前向计算得到feature
pre_S = self.model_mobile(imgs)#这块不是提取的图像的特征，而是加入了fc层，预测出相应类别
#然后和标签进行loss计算（网络结构中self.fc = Linear(512, class_num)，前向计算中最后一句：out = self.fc(out)）
#进行softmax loss计算
conf.ce_loss = CrossEntropyLoss()
loss_softmax = conf.ce_loss(pre_S，labels)

在编码过程中，开始时直接使用了：

 torch.nn.LogSoftmax()

最后通过读别人的博客才理解：crossEntropyloss（）是softmax和负对数损失的结合，所以直接使用了crossEntropyloss；

Feature Direction as Distilled Knowledge

angular distillation loss:

pytorch 代码：

提取每层特征的方法参考：https://mp.csdn.net/postedit/95316328

然后对于angular distillation loss的蒸馏编码：

    def forward(self, featureT, featureS):
        conv1 = torch.nn.Conv2d(featureS.shape[1], featureT.shape[1],
        kernel_size=3,stride=1,padding=1).cuda()
        featureS = conv1(featureS)
        
        self.norm1_S = torch.nn.functional.normalize(featureS)
        self.norm1_T = torch.nn.functional.normalize(featureT)       
       
        loss = 1-self.norm1_S*self.norm1_T
        loss = torch.norm(loss).pow(2)        
        return loss

通过公式（4）作者提出，迁移的知识就是嵌入特征的方向，换句话说：就是 $F^{_{n}^{s}}$ 和 $F^{_{n}^{t}}$ 拥有相似的方向，这样在潜在的空间中，特征就可以以不同的半径分布在不同的超空间。最终的目标函数：