Angular Softmax Loss

最新推荐文章于 2024-04-18 09:35:16 发布

weixin_37958272

最新推荐文章于 2024-04-18 09:35:16 发布

阅读量1.4k

点赞数 1

分类专栏：人脸识别文章标签：人工智能算法深度学习

人脸识别专栏收录该内容

14 篇文章 1 订阅

订阅专栏

Angular Softmax Loss

A-softmax loss可以看作是softmax loss的一个增强版本。softmax loss给出的后验概率为:

p_i = $\frac{e^{W{^T_i}x+b{_i}}}{\Sigma_je^{W{^T_j}x+b{_j}}}$ 其中x为输入特征向量。W_i和b_i分别为与类i对应的softmax层的权向量和偏置。

为了说明A-softmax损失，我们考虑了两类情况。将下面的分析推广到多类情况是不重要的。softmax loss给出的两类情形的后验概率为:
在这里插入图片描述

如果p₁ > p₂，则将预测标签分配给类别1；如果p₁<p₂，则将预测标签分配给类别2。决策边界是 $(W{^T_1}-W{^T_2})x=0$ ，也可以写成 $(\begin{Vmatrix}W_1\end{Vmatrix}COS(\theta_1)-\begin{Vmatrix}W_2\end{Vmatrix}COS(\theta_2))\begin{Vmatrix}x\end{Vmatrix}=0$ 。 $\theta_1,\theta_2$ 是x和W₁，W₂的夹角。

**A-softmax有两处修改之处，首先，当使用余弦距离度量时，最好是将权值标准化并使偏差为零，即 $\begin{Vmatrix}W_1\end{Vmatrix}=\begin{Vmatrix}W_2\end{Vmatrix}=1$ 且 $b_1=b_2=0$ 。（跟L-softma loss的主要不同点）**决策边界变成了角边界，定义为 $cos(\theta_1)-cos(\theta_2)=0$ 。然而，学习到的特征仍然不一定是有区别度的。其次，[14]进一步提出引入角裕度以增强分辨力。具体地说，引入整数m（m $\ge$ 2）来定量控制角裕度的大小。类1和类2的决策条件变为 $cos(m\theta_1)-cos(\theta_2)>0$ 和 $cos(m\theta_2)-cos(\theta_1)>0$ 。

A-softmax决策条件将产生角裕度: $\frac{m-1}{m+1}\Theta,\Theta$ 代表W₁,W₂间的夹角

将上述思想转化为损失函数，得到多类情况下的A-softmax损失函数:
在这里插入图片描述

其中N为训练样本的总数。x⁽ⁿ⁾和y⁽ⁿ⁾分别表示第n个训练样本的输入特征向量和类别标签。 $\theta^{(n)}_j$ 为x⁽ⁿ⁾与w_j夹角， $\theta^{(n)}_{y_n}$ 为x⁽ⁿ⁾与权向量 $W_{y_n}$ 之间的夹角。

值得注意的是， $\theta^{(n)}_{y_n}$ 应该在 $[0,\frac{m}{\pi}]$ ，为了消除这个限制，我们定义了一个新的函数来代替余弦函数，如下所示:
在这里插入图片描述

$\theta^{(n)}_{y_n}\in[\frac{k\pi}{m},\frac{(k+1)\pi}{m}]$ 且 $k\in[0,m-1]$ 。因此A-softmax损失函数最终定义如下:
在这里插入图片描述

A-Softmax loss通过引入m，对不同的类采用不同的决策边界(每个边界比原边界更严格)，从而产生角裕度。

角裕度随m的增大而增大，当m=1时，角裕度为零。与标准的softmax相比，A-softmax算法使得决策边界更加严格和分离，能够驱动更具区分性的特征学习。与triplet loss相比，使用A-softmax loss不需要仔细采样三元组来训练网络。

用A-softmax loss不需要仔细采样三元组来训练网络。

在训练中使用A-softmax损失也很简单。在前向传播期间，我们使用规范化的网络权值。为了方便梯度计算和反向传播， $cos(\theta_j^{(n)})$ 和 $cos(m\theta_{y_n}^{(n)})$ 可以用只包含W和x⁽ⁿ⁾的表达式代替，根据余弦的定义和多角度公式，通过这种方法，我们可以计算关于W和x^（n）的导数，这类似于在训练中使用softmax loss。