NeurIPS2021 港大&腾讯AI Lab&牛津提出：CARE，让CNN和Transformer能在对比学习中“互帮互助”！...

最新推荐文章于 2024-05-14 21:29:18 发布

我爱计算机视觉

最新推荐文章于 2024-05-14 21:29:18 发布

阅读量1k

点赞数 1

文章标签： python 计算机视觉神经网络机器学习人工智能

本文链接：https://blog.csdn.net/moxibingdao/article/details/121219821

版权

港大、腾讯AI Lab及牛津大学合作的NeurIPS 2021论文介绍了CARE（CNN Attention REvitalization）框架，通过Transformer引导CNN在自监督视觉表征学习中提升注意力机制。CARE包含CNN-stream和Transformer-stream，两者并行训练，Transformer的注意力用于指导CNN的特征学习，改善CNN在图像分类、目标检测和语义分割等任务上的性能。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享NeurIPS 2021 论文『Revitalizing CNN Attentions via Transformers in Self-Supervised Visual Representation Learning』，由港大&腾讯AI Lab&牛津大学联合提出 CARE，让 CNN 和 Transformer 能在对比学习中“互帮互助”！

详细信息如下：

论文链接：https://arxiv.org/abs/2110.05340
项目链接：https://github.com/chongjiange/care

导言：

自监督视觉表征学习（SSL）的研究提升了编码器主干网络的性能，使其能够区分无标签的训练样本。虽然通过SSL实现的CNN编码器的识别性能与通过监督学习实现的编码器相当，但其网络中的注意力机制还未得到探索，有待进一步改进。

受在识别场景中带视觉注意力机制的Transformer的启发，作者提出了一个CNN注意力恢复（CNN Attention REvitalization，CARE）框架来训练SSL中由Transformer引导注意力的CNN编码器。本文提出的CARE框架由CNN流（C流，C-stream）和Transformer流（T流，T-stream）组成，其中每个流包含两个分支。C-stream遵循现有的SSL框架，带有两个CNN编码器、两个投影模块和一个预测模块。

T-stream包含两个Transformer、两个投影模块和一个预测器。T-stream连接到CNN编码器，并与剩余的C-stream并行。在训练期间，作者在两个流中同时执行SSL，并使用T-stream输出来监控C-stream。CNN编码器的特征在T-stream中进行调整，以增强视觉注意力。然后使用这些调整的特征来监督C-stream，以便学习attentive的CNN编码器。

在多个标准视觉识别基准（包括图像分类、目标检测和语义分割）上的实验表明，本文提出的CARE框架将CNN编码器主干提高到SOTA的性能。

Motivation

有效地学习视觉特征对识别性能有着深远的影响。在处理大规模自然图像时，自监督视觉表征学习中的代理特征训练（pretext feature training），有利于下游识别任务。现有的SSL方法通常利用两个分支来度量来自同一输入图像的不同视图表示之间的相似性。通过最大化一幅图像中相关视图之间的相似性（例如，BYOL、SimSiam和Barlow Twins

最低0.47元/天解锁文章

我爱计算机视觉

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
NeurIPS2021 港大&腾讯AI Lab&牛津提出：CARE，让CNN和Transformer能在对比学习中“互帮互助”！...

关注公众号，发现CV技术之美本文分享NeurIPS 2021 论文『Revitalizing CNN Attentions via Transformers in Self-Supervi...
复制链接

扫一扫