对比学习损失篇，从L-softmax到AM-softmax到circle-loss到PCCL

最新推荐文章于 2023-12-19 15:04:45 发布

hangguns

最新推荐文章于 2023-12-19 15:04:45 发布

阅读量2.2k

点赞数 4

分类专栏： algorithm 文章标签：学习机器学习深度学习

本文链接：https://blog.csdn.net/qiongyaoxinpo/article/details/126890058

版权

algorithm 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

前言

对比学习是一种比较学习，其主要目的为让模型学习到不同类别之间的特征，其被广泛应用于人脸识别，文本检索，图像分类等领域。对比学习的主要思想是增大不同类别间的距离，缩小相同类别间的距离，以此来学习到比较特征。

普通的对比学习损失

$\mathcal{L_{CL}=-log\frac{exp(s_{i,p}/\tau)}{exp(s_{i,p}/\tau)+\sum_{n=1}^{N}exp(s_{i,n}/\tau)}}$
说先看一下最普通的对比损失学习，当正样本对只有一对，负样本对有n对的时候，这就是最常见的交叉熵损失，普通的对比损失可以良好的区分开不同类别，但是，对于相同类别之间与不同类别之间的距离却无法很好的分开。通常我们在进行检索的时候，我们是通过计算新输入的样本的特征，然后与数据库中所有的样本进行比较，计算相似度或者欧式距离，按照阈值来进行排序，最终给出高于阈值的相似样本。而上述普通对比学习损失通常作为分类模型进行学习，因此对于类内距离并不敏感，下图是个例子（图取自https://kexue.fm/archives/5743）：
在这里插入图片描述
可以看到z1，z2，z3在分类模型中都很好的被区分了，但是以相似度或者距离来衡量的时候，不同类别间的点z1和z2的距离是最近的，导致输出的相似样本是错误的。针对这种情况，我们希望模型在能够区分类别间的样本的同时，进一步缩短类内的距离。接下来首先介绍一下L-softmax与AM-softmax，这两种损失通过引入margin的方式，窄化了决策边界，虽然使得模型学习更难，但是优化完全后，可以进一步将类内距离缩小，将类间距离放大

L-softmax

在这里插入图片描述

L-softmax添加了乘性边界m到余弦公式中，以此来增大决策边界。假设在面对2分类的任务时，我们想要区分类别1和类别2，那么原始的softmax会学习 $W_1^Tx>W_2^Tx$ ，也就是 $||W_1||||x||cos(\theta_1)>||W_2||||x||cos(\theta_2)$ 。在这种情况下，模型只会学习一条决策边界，来区分类别1和类别2。如果我们想要更加严格区分类别1和类别2呢？我们可以将上面的公式更改为 $||W_1||||x||cos(m\theta_1)>||W_2||||x||cos(\theta_2)$ ，m为整数，通过这种方式，我们可以得到一个新的决策边界:
$||W_1||||x||cos(\theta_1)\ge||W_1||||x||cos(m\theta_1)>||W_2||||x||cos(\theta_2)$
我们知道 $\theta\in[0,\pi]$ ， $cos\theta\in[-1,1]$ ，在区间 $0,\pi$ 内，余弦函数为递减函数，因此增加乘性边界m算子使得决策边界更加窄，也使得模型的训练难度增大。
假设原始softmax和L-softmax都可以被完全优化，那么我们可以产生如下决策边界
在这里插入图片描述
由于 $W_1^Tx$ 的角度从原来的 $\theta1$ 缩减为了 $\frac{\theta1}{m}$ ，因此所有类别1样本距离类别1向量的角度都减小了，对于类别2来说也一样，因为类别1与类别2之间的类内距离减小了，所以类间的距离就增大了，模型学习了2个决策边界，决策边界之间的角度则为decision margin。

AM-softmax

$\mathcal{L_{AM-softmax}=-log\frac{exp((s_{i,p}-m)/\tau)}{exp((s_{i,p}-m)/\tau)+\sum_{n=1}^{N}exp(s_{i,n}/\tau)}}$
AM-softmax提出了一种更加简单实现的加性算子，与作用于角度的乘性算子不同，加性算子直接作用于cosine similarity，在相同类别的相似度中，减去一个margin参数m，并通过较大的温度系数 $\tau$ 进行放大，与L-softmax类似，我们希望
$s_1\ge s_1-m> s_2$
我们知道，余弦值越小，代表角度越大，因此 $s_2$ 即类间角度被限制为更大的一个角度。假设AM-softmax能够完全优化，那么参考L-softmax中的图，取原始softmax中余弦为 $cos\theta_1$ ,AM-softmax中为 $cos\theta_1'=cos\theta_1-m$ 即 $cos\theta_1=cos\theta_1'+m$ ，我们知道余弦值越大，角度越小，因此AM-softmax与L-softmax一样，将类内的距离缩小了。

Circle-loss

虽然上述2个损失能够将类内距离进一步缩小，类间距离进一步增大，但是实际情况中，模型对于难样本与简单样本的关注度是一样的，也就是梯度是一样的。因此很容易想到，我们希望让模型将注意力更多地放到难样本中，采用不同的梯度对不同的样本进行训练，于是circle-loss便被提了出来。
在这里插入图片描述

上述circle loss的形式与AM-softmax分式的形式不同，其可以由分式推导出来，以AM-softmax为例

在circle loss中，引入了2个松弛因子 $\alpha_p^i, \alpha_n^i$ ，其中p代表类内，n代表类间， $O_p$ 代表类内相似度的上界， $O_n$ 代表类间相似度的下界, $\bigtriangleup_p$ 代表类内margin， $\bigtriangleup_n$ 代表类间margin，松弛因子均大于0。 $\alpha_p^i$ 会随着 $s_p^i$ 的增大而减小，意味着给类内距离大的难样本更大的权重，给类内距离小的简单样本更小的权重。 $\alpha_n^j$ 会随着 $s_n^j$ 的减小而减小，意味着给类间距离大的简单样本更小的权重，给类间距离小的难样本更大的权重。上下界的意义为我们对满足要求的样本赋予最低要求权重进行更新。
circle loss 希望 $s_n^j<\bigtriangleup_n$ 而 $s_p^j>\bigtriangleup_p$ ，按这个方向更新使损失变小。在2分类问题中，决策边界为 $\alpha_n(s_n-\bigtriangleup_n)-\alpha_p(s_p-\bigtriangleup_p)=0$ 时，决策边界为
$(s_n-\frac{O_n+\bigtriangleup_n}{2})^2+(s_p-\frac{O_p+\bigtriangleup_p}{2})^2=C$
$C=((O_n-\bigtriangleup_n)^2+(O_p-\bigtriangleup_p)^2)/4$
设定 $O_p=1+m,O_n=-m,\bigtriangleup_p=1-m,\bigtriangleup_n=m$ ，可以得到决策边界为
$s_n-0)^2+(s_p-1)^2=2m^2$
其目的为优化 $s_n\rightarrow 0,s_p\rightarrow 1$ ，m决定了决策边界的半径，换句话说，circle loss期望 $s_p^i>1-m,s_n^j<m$ ，同时采用sample-specific的方式进行训练

PCCL

PCCL在circle loss的基础上，删除了margin，其公式如下

在这里插入图片描述

在原论文中，作者单纯通过 $\alpha_{i,p}$ 与 $\alpha_{i,n}$ 去期望 $s_{i,p}>1-m,s_{i,n}<m$ ，我认为是不合理的，按上述所示，应该为 $s_{i,p}\rightarrow 1,s_{i,n}\rightarrow -m$ ，由于论文是应用于小样本finetune，因此设定了 $\tau_p=\xi\tau_n$ ， $\xi$ 为正整数，目的在于让类内相似度不要过大，防止过拟合