原文链接:点击打开链接
1. From Softmax to ArcFace
1.1 softmax
其中x_i表示第i个样本的深度特征,属于第y_i类。特征的维数d设置为512维。w_j表示最后全连接层的权值W的第j列,b是偏置项。batchsize和类别数分别为m和n。
1.2 weights normalisation
简单地,我们固定b_j=0,然后将目标对数函数转换为如下:
我们用L2正则固定||w_j||=1,使得预测仅仅依赖于特征向量和权重之间的角度。
在sphereface实验中,L2权重正则仅仅提高了一点性能。
1.3 Multiplicative Angular Margin
在sphereface中,角边界m以乘法的方式引进到角度中。
其中。为了去除这个限制,用一个分段单调函数代替。sphereface制定为:
m是一个大于等于1的整数,用于控制角边界的大小。然而,在实现sphereface中,softmax监督用于保证训练收敛,这个权重用动态超参数来控制,事实上是:
其中是一个超参数来促进sphereface训练。在开始的时候设置为1000,然后减少到5,使得每个类的角空间更加紧凑。这个传统的动态超参数使得sphereface训练比较棘手。