UniCL_计算机视觉_2022

在这里插入图片描述
文章链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Yang_Unified_Contrastive_Learning_in_Image-Text-Label_Space_CVPR_2022_paper.pdf
代码链接:https://github.com/microsoft/UniCL

背景

在zore-shot、transfer learning和liner probing等多个问题设定下,将图片-文本结合起来构建对比学习的CLIP表现出杰出的性能,受到它的启发,UniCL不仅将计算机视觉和自然语言(图片-文本)两个方面结合起来,还加入了监督学习的内容,即图片-标签。

目的

将图片、文本、标签联合成数据 S S S,从中为图片 x x x学习到语义丰富的、独特性的视觉表示。

问题的定义

三元组数据 S = { ( x n , t n , y n ) } n = 1 N S=\{(x_n,t_n,y_n)\}^N_{n=1} S={(xn,tn,yn)}n=1N x n x_n xn表示图片, t n t_n tn表示语言描述内容, y n y_n yn表示图片的标签。

可以像上面的三元组数据一样表示的原因在于(1)来自网页的图片-文本对 { ( x n , t n ) } n = 1 N \{(x_n,t_n)\}^N_{n=1} {(xn,tn)}n=1N具有一对一的映射,每一个图片-文本对都有一个独一无二的标签,所以可以为这一个图片-文本对找到一个 y n y_n yn进而 S = { ( x n , t n , y n ≡ n ) } n = 1 N S=\{(x_n,t_n,y_n\equiv n)\}^N_{n=1} S={(xn,tn,ynn)}n=1N;(2)即使图片具有简单的分类标签,但这些标签通常也是由具体的任务中相关的概念引导的,所以对于图片-标签对 S = { ( x n , t n ≡ ( C [ y n ] ) , y n ) } n = 1 N S=\{(x_n,t_n\equiv (C[y_n]),y_n)\}^N_{n=1} S={(xn,tn(C[yn]),yn)}n=1N C C C就是一个 y n y_n yn为索引的概念名集合。基于上述的定义,可以将图片-标签对表示为有标签的图片-文本对。

算法内容

图片 x x x通过图片编码模型 f θ f_{\theta} fθ来表示为一个特征向量 v ~ ∈ R d × 1 \tilde{\boldsymbol{v}} \in \mathbb{R}^{d \times 1} v~Rd×1, v ~ = f θ ( x ) \tilde{\boldsymbol{v}}=f_{\theta}(x) v~=fθ(x),对于每一个语言描述 t ∈ T t \in \mathcal{T} tT,使用语言编码器 f ϕ ( t ) f_{\phi}(\boldsymbol{t}) fϕ(t)编码文本的特征向量 u ~ ∈ R d × 1 \tilde{\boldsymbol{u}}\in \mathbb{R}^{d \times 1} u~Rd×1 u ~ = f ϕ ( t ) \tilde{\boldsymbol{u}}=f_{\phi}(\boldsymbol{t}) u~=fϕ(t),对于在一个batch B \mathcal{B} B中第 i i i个图片和第 j j j个文本,将它们归一化到一个超球面,考虑到图像-文本的双向学习目标,所以 u i = f θ ( x i ) ∣ ∣ f θ ( x i ) ∣ ∣ , v i = f ϕ ( t i ) ∣ ∣ f ϕ ( t i ) ∣ ∣ u_i=\frac{f_{\theta}(x_i)}{||f_{\theta}(x_i)||},v_i=\frac{f_{\phi}(t_i)}{||f_{\phi}(t_i)||} ui=fθ(xi)fθ(xi),vi=fϕ(ti)fϕ(ti),( u i u_i ui表示图片, v i v_i vi表示文本) m i n { θ , ϕ } L B i C = L i 2 t + L t 2 i {min}_{\{\theta,\phi\}} \quad \mathcal{L}_{BiC}=\mathcal{L}_{i2t}+\mathcal{L}_{t2i} min{θ,ϕ}LBiC=Li2t+Lt2i

在这里插入图片描述

  • 给定一个文本,在对应匹配的图片上的对比损失:
    在这里插入图片描述
    在这里插入图片描述
    这里表示行的计算,把与文本匹配的图片找出来,然后这些图片和文本计算损失。

  • 给定一个图片,在对应匹配的文本上的对比损失
    在这里插入图片描述
    在这里插入图片描述
    这里表示;列的计算,把与图片匹配的文本找出来,然后这些文本和图片计算损失。

与其他常见的损失的比较

在这里插入图片描述

实验

  • 对比实验
    在这里插入图片描述
  • 消融实验、batch size取值分析
    在这里插入图片描述
  • 结果可视化
    加入图片文本的benefit
    在这里插入图片描述
    加入图片标签的benefit
    在这里插入图片描述
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值