NeurIPS2021 港大&腾讯AI Lab&牛津提出:CARE,让CNN和Transformer能在对比学习中“互帮互助”!...

港大、腾讯AI Lab及牛津大学合作的NeurIPS 2021论文介绍了CARE(CNN Attention REvitalization)框架,通过Transformer引导CNN在自监督视觉表征学习中提升注意力机制。CARE包含CNN-stream和Transformer-stream,两者并行训练,Transformer的注意力用于指导CNN的特征学习,改善CNN在图像分类、目标检测和语义分割等任务上的性能。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

本文分享NeurIPS 2021 论文『Revitalizing CNN Attentions via Transformers in Self-Supervised Visual Representation Learning』,由港大&腾讯AI Lab&牛津大学联合提出 CARE,让 CNN 和 Transformer 能在对比学习中“互帮互助”!

详细信息如下:

8b0369f26497e60b78d946eecc2a94e1.png

  • 论文链接:https://arxiv.org/abs/2110.05340

  • 项目链接:https://github.com/chongjiange/care

导言:

b5098ea802d94b36c0a0c2cf990e41fb.png

自监督视觉表征学习(SSL)的研究提升了编码器主干网络的性能,使其能够区分无标签的训练样本。虽然通过SSL实现的CNN编码器的识别性能与通过监督学习实现的编码器相当,但其网络中的注意力机制还未得到探索,有待进一步改进。

受在识别场景中带视觉注意力机制的Transformer的启发,作者提出了一个CNN注意力恢复(CNN Attention REvitalization,CARE) 框架来训练SSL中由Transformer引导注意力的CNN编码器。本文提出的CARE框架由CNN流(C流,C-stream)Transformer流(T流,T-stream)组成,其中每个流包含两个分支。C-stream遵循现有的SSL框架,带有两个CNN编码器、两个投影模块和一个预测模块。

T-stream包含两个Transformer、两个投影模块和一个预测器。T-stream连接到CNN编码器,并与剩余的C-stream并行。在训练期间,作者在两个流中同时执行SSL,并使用T-stream输出来监控C-stream。CNN编码器的特征在T-stream中进行调整,以增强视觉注意力。然后使用这些调整的特征来监督C-stream,以便学习attentive的CNN编码器。

在多个标准视觉识别基准(包括图像分类、目标检测和语义分割)上的实验表明,本文提出的CARE框架将CNN编码器主干提高到SOTA的性能。

      01      

Motivation

有效地学习视觉特征对识别性能有着深远的影响。在处理大规模自然图像时,自监督视觉表征学习中的代理特征训练(pretext feature training),有利于下游识别任务。现有的SSL方法通常利用两个分支来度量来自同一输入图像的不同视图表示之间的相似性。通过最大化一幅图像中相关视图之间的相似性(例如,BYOL、SimSiam和Barlow Twins

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值