角度间隔损失函数

文章探讨了SoftMax损失函数及其优化形式,如Large-MarginSoftmax、SphereFace和ArcFace。这些方法通过关注角度而不是欧几里得距离来改善分类性能,其中SphereFace和CosFace着重于固定间隔策略。ArcFace是角度margin的一种实现,旨在增加不同类别之间的区分度。
摘要由CSDN通过智能技术生成

度量损失:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

SoftMax

在这里插入图片描述

  • 根据softmax的函数公式进行变换,然后归一化到概率
    在这里插入图片描述
  • 解决上溢和下溢出问题(softmax函数自身性质问题),取一个log
    在这里插入图片描述
  • 用一个a做恒等变换,解决这个问题,带入softmax函数,值不变
    在这里插入图片描述
  • 决策边界是没有变的
    在这里插入图片描述
    在这里插入图片描述

转换成角度

  • 用向量的性质, x = ∣ ∣ x ∣ ∣ ∗ c o s ( θ ) x=||x|| *cos(\theta) x=∣∣x∣∣cos(θ)
    在这里插入图片描述
    在这里插入图片描述
    解决的核心问题:用欧几里得距离度量,不同类之间的距离可能小于同类之间的距离,用角度来度量可以缓解优化这个问题

Large-Margin Softmax Loss

在这里插入图片描述

  • 对cos角度进行改进,使得类别标签之间的角度更小(误差更小)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

Modified Softmax

在这里插入图片描述

  • 把原来的softmax的权重赋值为1和偏差赋值为0
    在这里插入图片描述
  • 显然,规约到球面是一个好的选择
    在这里插入图片描述
    在这里插入图片描述

SphereFace Angular Softmax

在这里插入图片描述
在这里插入图片描述

SphereFace的损失函数:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

NormFace

background

在这里插入图片描述
在这里插入图片描述

  • 在特征提取中都没有归一化(训练过程中),但是在测试中都使用了归一化

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • feature的scale(缩放尺度)越大, P i ( s f ) P_i(sf) Pi(sf)越大,softmax loss就越小

为什么会是特征会呈辐射状分布?

在这里插入图片描述

  • Softmax 交叉熵损失函数总是会鼓励已经被分类正确的特征得到更大的幅度。

在迭代过程中,特征的幅度会被越拉越大,这就是为什么 Softmax 交叉熵损失函数训练出的特征总是呈现出辐射状分布的原因

  • softmax前的内积层不可以添加偏置项

原理

在这里插入图片描述

  • 完全专注于角度,在放缩的时候加了一个 α \alpha α

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述


CosFace /AM-softmax

  • 该方法间隔固定,不依赖于theta, sphereFace的间隔依赖于theta

在这里插入图片描述
在这里插入图片描述

  • AM-softmax
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

ArcFace

在这里插入图片描述
在这里插入图片描述

总结一下角度的损失函数

在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值