论文阅读|Circle Loss: A Unified Perspective of Pair Similarity Optimization

最新推荐文章于 2021-10-09 16:40:41 发布

Stella Zhou

最新推荐文章于 2021-10-09 16:40:41 发布

阅读量431

点赞数 1

分类专栏：论文阅读文章标签：深度学习

本文链接：https://blog.csdn.net/qq_41983690/article/details/119952900

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

项目地址：CircleLoss

主要观点

重新计算每个相似度的权重，以突出优化程度较低的相似度得分；因此提出circle loss，由于决策边界为circle，故为circle loss；
对class-level label和pair-wise label进行统一；

原理阐述

1比1识别任务应该是减少类间相似度 $s_n$ ，增大类内相似度 $s_p$ ，但是现有的loss在反向传播时，对 $s_n$ 与 $s_p$ 的梯度更新是一致的。这就导致某些点无法得到很好的更新，比如 $s_n$ 与 $s_p$ 都趋于0时， $s_n$ 不应该再优化了，重点应该放在 $s_p$

二维梯度图示

(a)图中，三点的 $s_n-s_p)$ 一致，更新方向也一致，但其实点A的 $s_n$ 已经更新得不错了，需要增加 $s_p$ 的更新，点B反之
(a)图中，决策边界处的所有点(T, T’)都可以作为优化目标，梯度更新方向不明确，(b)图中的点T很明确地指出了优化目标

三维梯度图示

图(a)(b)中，在达到边界之前， $s_n$ 与 $s_p$ 的梯度更新是一致；
图(a)(b)中，在达到边界之前，梯度基本是固定值，在收敛时突然减小，点B更靠近边界，但是与点A的梯度是一致的；
图(a)(b)中，决策边界（白虚线）平行于 $s_p-s_n=m$ ，边界上的任意点都可以作为目标；

具体实现

定义一个统一的损失函数
$\begin{aligned} \mathcal{L}_{u n i} &=\log \left[1+\sum_{i=1}^{K} \sum_{j=1}^{L} \exp \left(\gamma\left(s_{n}^{j}-s_{p}^{i}+m\right)\right)\right] \\ &=\log \left[1+\sum_{j=1}^{L} \exp \left(\gamma\left(s_{n}^{j}+m\right)\right) \sum_{i=1}^{K} \exp \left(\gamma\left(-s_{p}^{i}\right)\right)\right] \end{aligned}$
其中， $\gamma$ 表示缩放因子
对于class-level labels，比如AM-Softmax，有
$\begin{aligned} \mathcal{L}_{a m} &=\log \left[1+\sum_{j=1}^{N-1} \exp \left(\gamma\left(s_{n}^{j}+m\right)\right) \exp \left(-\gamma s_{p}\right)\right] \\ &=-\log \frac{\exp \left(\gamma\left(s_{p}-m\right)\right)}{\exp \left(\gamma\left(s_{p}-m\right)\right)+\sum_{j=1}^{N-1} \exp \left(\gamma s_{n}^{j}\right)} \end{aligned}$
对于pair-wise labels，比如Triplet loss，有
$\begin{aligned} \mathcal{L}_{\text {tri }} &=\lim _{\gamma \rightarrow+\infty} \frac{1}{\gamma} \mathcal{L}_{u n i} \\ &=\lim _{\gamma \rightarrow+\infty} \frac{1}{\gamma} \log \left[1+\sum_{i=1}^{K} \sum_{j=1}^{L} \exp \left(\gamma\left(s_{n}^{j}-s_{p}^{i}+m\right)\right)\right] \\ &=\max \left[s_{n}^{j}-s_{p}^{i}\right]_{+} \end{aligned}$
将 $s_n-s_p)$ 调整为 $(\alpha_ns_n-\alpha_ps_p)$ ，赋予这两种相似度不同的初始学习率
$\left\{\begin{array}{c} \alpha_{p}^{i}=\left[O_{p}-s_{p}^{i}\right]_{+}, \\ \alpha_{n}^{j}=\left[s_{n}^{j}-O_{n}\right]_{+} \end{array}\right.$
[·]+表示在0处截断， $O_n$ 与 $O_p$ 分别表示最佳位置
$\begin{aligned} \mathcal{L}_{\text {circle }} &=\log \left[1+\sum_{i=1}^{n} \sum_{j=1}^{L} \exp \left(\gamma\left(\alpha_{n}^{j} s_{n}^{j}-\alpha_{p}^{i} s_{p}^{i}\right)\right)\right] \\ &=\log \left[1+\sum_{j=1}^{L} \exp \left(\gamma \alpha_{n}^{j} s_{n}^{j}\right) \sum_{i=1}^{K} \exp \left(-\gamma \alpha_{p}^{i} s_{p}^{i}\right),\right] \end{aligned}$
给 $s_n$ 与 $s_p$ 设置不同的margin
$\mathcal{L}_{\text {circle }}=\log \left[1+\sum_{j=1}^{L} \exp \left(\gamma \alpha_{n}^{j}\left(s_{n}^{j}-\Delta_{n}\right)\right) \sum_{i=1}^{K} \exp \left(-\gamma \alpha_{p}^{i}\left(s_{p}^{i}-\Delta_{p}\right)\right)\right]$
对于决策边界 $\alpha_{n}\left(s_{n}-\Delta_{n}\right)-\alpha_{p}\left(s_{p}-\Delta_{p}\right)=0$ ，将学习率代入其中，可以得到
$\left(s_{n}-\frac{O_{n}+\Delta_{n}}{2}\right)^{2}+\left(s_{p}-\frac{O_{p}+\Delta_{p}}{2}\right)^{2}=C$
其中， $C=\left(\left(O_{n}-\Delta_{n}\right)^{2}+\left(O_{p}-\Delta_{p}\right)^{2}\right) / 4$ 。此时，决策边界是一个circle。
由于超参数过多，统一用 $m$ 进行管理，令 $O_p=1+m$ ， $O_n=-m$ ， $\Delta_p=1-m$ ， $\Delta_n=m$ ，可以得到
$\left(s_{n}-0\right)^{2}+\left(s_{p}-1\right)^{2}=2 m^{2}$
此时，超参数只剩下缩放因子 $\gamma$ 和裕度值 $m$

引申文献

《 Adaptive Margin Circle Loss for Speaker Verification》
当margin太小时，梯度会变为线性函数；margin过大时，在决策边界处，梯度会迅速下降为0【这有什么不好吗？】
在训练阶段，margin由大到小变化
当语音块chunk较小时，训练比较困难，使得margin根据chunk size进行更新
$m=\left(1-\lambda \frac{L-L_{\min }}{L_{\max }-L_{\min }}\right) m_{0}$

Stella Zhou

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
论文阅读|Circle Loss: A Unified Perspective of Pair Similarity Optimization

项目地址：CircleLoss主要观点重新计算每个相似度的权重，以突出优化程度较低的相似度得分；因此提出circle loss，由于决策边界为circle，故为circle loss；对class-level label和pair-wise label进行统一；原理阐述1比1识别任务应该是减少类间相似度sns_nsn，增大类内相似度sps_psp，但是现有的loss在反向传播时，对sns_nsn与sps_psp的梯度更新是一致的。这就导致某些点无法得到很好的更新，比如sns_nsn与
复制链接

扫一扫