softmax变种或增强1：Large-Margin Softmax Loss for Convolutional Neural Networks

最新推荐文章于 2022-10-15 13:09:44 发布

rainingmoon

最新推荐文章于 2022-10-15 13:09:44 发布

阅读量1.1k

点赞数

分类专栏： cv基础理论

cv基础理论专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本博文转载自：https://blog.csdn.net/shaoxiaohu1/article/details/53325945

参考文献： Liu W, Wen Y, Yu Z, et al. Large-Margin Softmax Loss for Convolutional Neural Networks[C]//Proceedings of The 33rd International Conference on Machine Learning. 2016: 507-516.

摘要点击打开链接

Softmax Loss 函数经常在卷积神经网络被用到，较为简单实用，但是它并不能够明确引导网络学习区分性较高的特征。这篇文章提出了large-marin softmax (L-Softmax) loss, 能够有效地引导网络学习使得类内距离较小、类间距离较大的特征。同时，L-Softmax不但能够调节不同的间隔（margin），而且能够防止过拟合。可以使用随机梯度下降法推算出它的前向和后向反馈，实验证明L-Softmax学习出的特征更加有可区分性，并且在分类和验证任务上均取得比softmax更好的效果。

算法介绍

1. Softmax Loss回顾

在介绍L-Softmax之前，我们先来回顾下softmax loss。当定义第 i 个输入特征 Xi 以及它的标签 yi时，softmax loss 记为：

L = 1 N \sum i L i = 1 N \sum i - l o g (e f y i \sum j e f j)

其中 fjfj 表示最终全连接层的类别输出向量 ff 的第 jj 个元素, NN 为训练样本的个数。由于 ff 是全连接层的激活函数 WW 的输出，所以 fyifyi 可以表示为 fyi=WTyixifyi=WyiTxi , 最终的损失函数又可以写为：

L i = - l o g (e ‖ W y i ‖ ‖ x i ‖ c o s ( θ y i ) \sum j e ‖ W j ‖ ‖ x i ‖ c o s ( θ j ))

其中 0≤θj≤π0≤θj≤π 。虽然softmax在深度卷积神经网络中有着广泛的应用，但是这种形式并不能够有效地学习得到使得类内较为紧凑、类间较离散的特征。

2. 动机

初始的softmax的目的是使得WT1x>WT2x，即 ‖W1‖‖x‖cos(θ1)>‖W2‖‖x‖cos(θ2)，从而得到 x （来自类别1）正确的分类结果。作者提出large-magrin softmax loss的动机是希望通过增加一个正整数变量 m，从而产生一个决策余量，能够更加严格地约束上述不等式，即：

‖ W 1 ‖ ‖ x ‖ c o s (θ 1) \geq ‖ W 1 ‖ ‖ x ‖ c o s (m θ 1) > ‖ W 2 ‖ x ‖ c o s (θ 2)

其中 0≤θ1<πm0≤θ1<πm 。如果 W1W1 和 W2W2 能够满足 ‖W1‖‖x‖cos(mθ1)>‖W2‖‖x‖cos(θ2)‖W1‖‖x‖cos(mθ1)>‖W2‖‖x‖cos(θ2) ，那么就必然满足 ‖W1‖‖x‖cos(θ1)>‖W2‖‖x‖cos(θ2)‖W1‖‖x‖cos(θ1)>‖W2‖‖x‖cos(θ2) 。这样的约束对学习 W1W1 和 W2W2 的过程提出了更高的要求，从而使得1类和2类有了更宽的分类决策边界。

（其实说白了，基于softmax loss学习同类和不同类样本时，都用的是同一种格式，因此学习到的特征的类内和类间的可区分性不强。而这篇论文是在学习同类样本时，特意增强了同类学习的难度，这个难度要比不同类的难度要大些。这样的区别对待使得特征的可区分性增强。感觉就像是管孩子，对自己家的孩子严一些，对别人家的孩子宽容些，哈哈）

Large-Margin Softmax Loss

按照上节的思路，L-Softmax loss可写为：

L i = - l o g (e ‖ W y i ‖ ‖ x i ‖ ψ ( θ y i ) ‖ W y i ‖ ‖ x i ‖ ψ ( θ y i ) + \sum j \neq y i e ‖ W j ‖ ‖ x i ‖ c o s ( θ j ))

在这里，ψ(θ) 可以表示为：

ψ (θ) = {c o s (m θ), 0 \leq θ \leq π m  (θ), π m < θ \leq π

当 mm 越大时，分类的边界越大，学习难度当然就越高。同时，公式中的 (θ)D(θ) 必须是一个单调减函数且 (πm)=cos(πm)D(πm)=cos(πm) ，以保证 ψ(θ)ψ(θ) 是一个连续函数。（这样的要求是为了保证 ψ(θ)ψ(θ) 和 cos(θ)cos(θ) 是较为类似的函数，具体的数学原理我不是特别清楚）

作者为了能够简化前向和后向传播，构建了这样一种函数形式ψ(θ)：

ψ (θ) = (- 1) k c o s (m θ) - 2 k, θ \in [k π m, ( k + 1 ) π m]

其中 kk 是一个整数且 k∈[0,m−1]k∈[0,m−1] 。下图是softmax loss 和L-Softmax loss的比较。

这里写图片描述

再使用 WTjxi‖Wj‖‖xi‖ 替代 cos(θj)，以及将cos(mθyi)替换为 cos(θyi) 和 m 的函数（论文中已交待，太长，我就不敲上去了），这样，最终的L-Softmax loss 函数就可以分别对 x 和 W 进行求导。后续的推导过程可以参考原论文（公式太多，我又太懒）。

简单分析

为了简单明了地表明L-Softmax Loss的有效性，作者讨论了一个二分类问题，只包含 W1 和 W2。分析结果如下图所示。

这里写图片描述

在训练过程中，当 W1=W2 时，softmax loss 要求 θ1<θ2, 而 L-Softmax则要求mθ1<θ2,我们从图中可以看到L-Softmax得到了一个更严格的分类标准。当W1>W2 和 W1<W2 时，虽然情况会复杂些，但是同样可以看到L-Softmax会产生一个较大的决策余量。

实验结果

作者分别使用分类和人脸验证对softmax loss 和L-Softmax Loss进行了对比。在分类问题中，采用了MNIST, CIFAR10以及CIFAR100三个数据集进行评测，而人脸验证则采用了LFW进行验证。

最后的结果是L-Softmax Loss均取得了更好的效果，而且当m 越大时，最终的结果会越好。特别值得一提的是，作者仅使用了 WebFace的人脸数据作为训练集和一个较小的卷积网络，就在LFW上达到了98.71%的正确率。
这里写图片描述

总结

L-Softmax Loss有一个清楚的几何解释，并且能够通过设置 m 来调节训练难度。它还能够有效地防止过拟合，能够有效地减小类内距离，同时增加类间距离。最终的分类和人脸验证实验也证明，它取得了比softmax loss更好的结果。

PS: 有同学已经开始使用L-Softmax Loss，不过反映训练难度比较大，需要反复调参。等有空了我也来试试。深度学习的东西我研究的时间也不是很长，一些东西没有理解到位。错误在所难免，欢迎拍砖。

rainingmoon

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
softmax变种或增强1：Large-Margin Softmax Loss for Convolutional Neural Networks

本博文转载自：https://blog.csdn.net/shaoxiaohu1/article/details/53325945参考文献： Liu W, Wen Y, Yu Z, et al. Large-Margin Softmax Loss for Convolutional Neural Networks[C]//Proceedings of The 33rd International ...
复制链接

扫一扫

专栏目录