NIPS2020——Debiased Contrastive Learning 详细解读

 论文及补充材料链接 : Debiased Contrastive Learning

代码: https://github.com/chingyaoc/DCL

摘要:

自监督表示学习的一个突出技术是对比语义上相似和不同的样本对。在没有访问标签的情况下,不同的(负的)点通常被认为是随机抽样的数据点,隐含地接受这些点实际上可能具有相同的标签。也许并不令人意外,我们观察到,在有标签的合成设置中,从真正不同的标签中采样负的例子可以提高性能。基于这一观察结果,我们开发了一个去偏对比目标,以校正相同标签数据点的抽样,即使不知道真实的标签。根据经验,所提出的目标在视觉、语言和强化学习基准方面始终优于最先进的表示学习。在理论上,我们建立了下游分类任务的泛化边界。

核心思想:作者认为,随机采样负样例,可能采样出与x相似的正样例,即false negative sample,如下图所示:

 一般的对比损失的形式如下所示,是有着采样偏差的(即biased):

\mathbb{E}_{x, x^{+},\left\{x_{i}^{-}\right\}_{i=1}^{N}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\sum_{i=1}^{N} e^{f(x)^{T} f\left(x_{i}^{-}\right)}}\right]

理想的无偏差的对比损失如下(需要知道标签信息):

上式Q是作者称是加权参数,后面还是设为了N。个人感觉只是为了方便下面的取极限操作。

引理1:对于任意的嵌入f和有限的N,有下式:

L_{\text {Biased }}^{N}(f) \geq L_{\text {Unbiased }}^{N}(f)+\mathbb{E}_{x \sim p}\left[0 \wedge \log \frac{\mathbb{E}_{x+\sim p_{x}^{+}} \exp f(x)^{\top} f\left(x^{+}\right)}{\mathbb{E}_{x^{-} \sim p_{x}^{-}} \exp f(x)^{\top} f\left(x^{-}\right)}\right]-e^{3 / 2} \sqrt{\frac{\pi}{2 N}}

这个引理1的根据下面的定理3证的。从公式形式上看,最小化L_{\text {Biased }}^{N}(f)是最小化目标函数的上界,看似是合理的。但是作者称有两个问题:(1)L_{\text {Unbiased }}^{N}(f) 越小,第二项越小(目前我还没看出来为啥)(2)根据作者的实验结果,最小化 L_{\text {Biased }}^{N}(f)与最小化L_{\text {Unbiased }}^{N}(f)有不同的表现。

去偏对比损失(Debiased Contrastive Loss)

先 把  p\left(x^{\prime}\right) 写成(类似全概率公式):  p\left(x^{\prime}\right)=\tau^{+} p_{x}^{+}\left(x^{\prime}\right)+\tau^{-} p_{x}^{-}\left(x^{\prime}\right)

 引理2:当Q固定,N \rightarrow \infty时,有:

\underset{x \sim p, x^{+} \sim p_{x}^{+}}{\mathbb{E}} \underset{\left\{x_{i}^{-}\right\}_{i=1}^{N} \sim p_{x}^{-N}}{ }\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\frac{Q}{N} \sum_{i=1}^{N} e^{f(x)^{T} f\left(x_{i}^{-}\right)}}\right]

\longrightarrow \underset{x^{+} \sim p_{x}^{+}}{\mathbb{E} \sim p}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+\frac{Q}{\tau^{-}}\left(\mathbb{E}_{x^{-} \sim p}\left[e^{f(x)^{T} f\left(x^{-}\right)}\right]-\tau^{+} \mathbb{E}_{v \sim p_{x}^{+}}\left[e^{f(x)^{T} f(v)}\right]\right)}\right]

这个证明简单些,只要把上面那个公式写成  p_{x}^{-}\left(x^{\prime}\right)=\left(p\left(x^{\prime}\right)-\tau^{+} p_{x}^{+}\left(x^{\prime}\right)\right) / \tau^{-},然后取极限就行了。

可以看出,上述公式中的x可以直接从p(x)中采样了,作者称这本质上是正例项和负例项在分母上的重新加权。但是需要知道两个期望,假设p 中有 N个样本\left\{u_{i}\right\}_{i=1}^{N}p_x^+ 中有M个正样本 \left\{v_{i}\right\}_{i=1}^{M},则分母中第二项可以估计为:

g\left(x,\left\{u_{i}\right\}_{i=1}^{N},\left\{v_{i}\right\}_{i=1}^{M}\right)=\max \left\{\frac{1}{\tau^{-}}\left(\frac{1}{N} \sum_{i=1}^{N} e^{f(x)^{T} f\left(u_{i}\right)}-\tau^{+} \frac{1}{M} \sum_{i=1}^{M} e^{f(x)^{T} f\left(v_{i}\right)}\right), e^{-1 / t}\right\}

上式 e^{-1 / t} 是理论最小值 e^{-1 / t} \leq \mathbb{E}_{x^{-} \sim p_{x}^{-}} e^{f(x)^{T} f\left(x_{i}^{-}\right)}

然后去偏对比损失就可以写为:

L_{\text {Debiased }}^{N, M}(f)=\mathbb{E}_{\substack{x \sim p ; x^{+} \sim p_{x}^{+} \\\left\{u_{i}\right\}_{i=1}^{N} \sim p^{N} \\\left\{v_{i}\right\}_{i=1}^{N} \sim p_{x}^{+M}}}\left[-\log \frac{e^{f(x)^{T} f\left(x^{+}\right)}}{e^{f(x)^{T} f\left(x^{+}\right)}+N g\left(x,\left\{u_{i}\right\}_{i=1}^{N},\left\{v_{i}\right\}_{i=1}^{M}\right)}\right]

这里作者为了简便 ,把Q设回了N。类别先验概率 \tau^+可以通过相关论文的方法估计,或者干脆设为一个超参数。

定理3:对于任意嵌入f,有限的N和M,有:

\left|\widetilde{L}_{\text {Debiased }}^{N}(f)-L_{\text {Debiased }}^{N, M}(f)\right| \leq \frac{e^{3 / 2}}{\tau^{-}} \sqrt{\frac{\pi}{2 N}}+\frac{e^{3 / 2} \tau^{+}}{\tau^{-}} \sqrt{\frac{\pi}{2 M}}

可以看出,N和M越大,误差越小,性能应该也会越好。但是这个定理的证明非常复杂,用到了琴生不等式、霍夫丁不等式、泊松积分,还有不等式的性质等等各种技巧。

伪代码实现(M=1):

# pos: exponential for positive example
# neg: sum of exponentials for negative examples
# N  : number of negative examples
# t  : temperature scaling
# tau_plus: class probability


standard_loss = - log ( pos / ( pos + neg ) )
Ng = max (( - N * tau_plus * pos + neg ) / (1 - tau_plus ) , N * e **( -1/ t))
debiased_loss = - log ( pos / ( pos + Ng ))

实验结果:

 从图(a)中可以看出,本文提出的去偏对比损失更加接近理想的无偏对比损失。

(后面还有一些实验和与监督损失的理论联系,这里未给出,感兴趣请参见原文)

个人总结:

这个论文的思想应用起来简单,只需要对对比损失的公式做稍微修改就行了。但是理论越多,补充材料有八页证明,我只啃了四页。实际上它就是想用 p , p_x^+ 和超参数 \tau^+把 p_x^- 给估计出来,但是这种估计会有误差,而且超参数 \tau^+ 不好选择,作者也没有给出具体的选择办法。如果需要准确地选择的话,那就需要知道类别的大概比例,就又回到有监督了。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值