NormFace L2 Hypersphere Embedding for Face Verification

NormFace 模型采用 L2 归一化在超球面上进行面部验证,解决传统 softmax loss 中特征分布的问题。通过归一化和重新定义损失函数,优化余弦相似度,提高面部识别的准确性。
摘要由CSDN通过智能技术生成

NormFace: L2 Hypersphere Embedding for Face Verification

3.1 Necessity of Normalization

在这里插入图片描述

图2:左:使用MNIST[14]数据集上的softmax loss优化二维特征分布。请注意,f1和f2之间的欧氏距离远小于f2和f3之间的距离,即使f2和f3来自同一个类。在这里插入图片描述

图3:内积运算后加上bias项时的散点图。请注意,有一,两个簇位于零点附近。如果我们将中心簇的特征标准化,它们会在单位圆上到处扩散,这将导致错误分类

为了直观感受softmax的损失,我们做了一个玩具实验,在MNIST数据集[14]上训练一个更深的LeNet[13]模型。我们将特征维数减少到2,并从图2中的平面上的训练集绘制10,000个二维特征。从图中我们发现,如果我们使用欧几里德距离作为度量,f2可以比f3更接近f1。因此,直接使用这些特性进行比较可能会导致性能下降。同时,我们发现,与欧氏距离或内积运算相比,特征向量之间的夹角似乎是一个很好的度量。实际上,以往的研究大多以特征向量间夹角的余弦作为相似度[31,36,38],尽管它们都使用softmax loss来训练网络。由于softmax损失最常见的相似性度量是具有未标准化特征的内积,因此在训练和测试阶段使用的度量之间存在差距。

soft max loss倾向于形成“辐射状的”特征分布本。缩放特征向量的大小不会影响其类的分配。我们回顾softmax损失的定义,

在这里插入图片描述

其中m是训练样本的数目,n是类的数目,fi是第i个样本的特征,yi是[1,n]范围内的对应标签,W和b是softmax损失前最后一个内积层的权重矩阵和bias向量,Wj是W的第j列,它对应于第j类。在测试阶段,我们对样本进行分类
在这里插入图片描述

在这种情况下,我们可以推断 ( W i f + b i ) − ( W j f + b j ) ≥ 0 , ∀ j ∈ [ 1 , n ] (W_if+b_i)-(W_jf+b_j)\ge0,\forall_j\in[1,n] (Wif+bi)(Wjf+bj)0,j[1,n]。利用这个不等式,我们得到以下命题。

命题1。对于以无bias项的内积相似度为度量的softmax loss,令 P i ( f ) = e W i T f Σ j = 1 n e W j T f P_i(f)=\frac{e^{W_i^Tf}}{\Sigma_{j=1}^ne^{W_j^Tf}} Pi(f)=Σj=1neWjTfeWiTf表示x被归类为i类的概率。对于任意给定的标量s > 1,如果 i = a r g m a x j ( W j T f ) i=argmax_j(W_j^Tf) i=argmaxj

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值